Adam's Law：ACL 2026 论文发现大模型的文本频率定律，用常见表达改写 prompt 就能提效

一篇 ACL 2026 主会论文把语言学界研究了半个世纪的东西搬到了 LLM 身上。

人类阅读研究早就发现：常见的词，人读得快。那大模型呢？

香港中文大学团队在 arXiv:2604.02176 里给了一个直接的答案——LLM 也偏好高频文本。他们把这种现象命名为 Adam's Law（文本频率定律，TFL），并且做了一套完整的框架来验证和利用它。

核心思路不复杂，但效果出人意料

论文的三步框架逻辑很干净：

第一步，估频率。 既然很多模型的训练数据是闭源的，团队直接用在线资源估算句子级别的文本频率。说白了就是查一查网上有多少地方用过类似的表达。

第二步，改写。 用一个 input paraphraser 把用户的输入改写成更高频的表达。不是换内容，是换说法。比如把一个拗口的学术句式改成更口语化、更常见的说法。

第三步，课程学习微调。 他们提出 Curriculum Textual Frequency Training（CTFT），按照句子频率从低到高的顺序微调模型。先学难的（低频），再学简单的（高频）。

四组实验——数学推理、机器翻译、常识推理、Agent 工具调用——结果一致：频率高的表达，模型理解得更好。

先说一个容易被忽略的点。过去我们对 prompt engineering 的直觉是"越精确越好"——给模型一个清晰、严谨、无歧义的表达。但 Adam's Law 提示了一个反直觉的方向：有时候"常见"比"精确"更有效。

这不是说要牺牲准确性。同一个意思，用常见的句式表达，模型的处理效率更高。这背后可能跟预训练数据的分布有关——模型在训练时见过的常见表达模式更多，对应的激活路径更熟练。

从实操角度，这给 prompt 优化提供了一个新维度。除了"让 prompt 更具体"，还可以考虑"让 prompt 更常见"。

论文的框架有几个前提条件，用的时候得注意：

另外，这个发现目前只在四个任务上验证了。对于代码生成、长文本推理这类任务是否同样适用，还需要更多实验。

如果说 Zipf 定律（词频分布定律）是自然语言的"万有引力"，那 Adam's Law 可能就是 LLM 训练语料分布在模型行为上的投影。

有意思的是，这个发现跟另一个方向的工作——模型可解释性研究中发现的"激活稀疏性"现象——似乎有某种内在联系。模型对高频输入的响应路径更高效，这是否意味着我们可以设计一种"频率感知"的推理加速方案？

这个我没打算现在就做。但如果有团队顺着这个方向深挖，我会很关注。

主要来源：

arXiv:2604.02176 - Adam's Law: Textual Frequency Law on Large Language Models（ACL 2026 Main Conference）
HuggingFace Daily Papers 2026-05-12