一篇 ACL 2026 主会论文把语言学界研究了半个世纪的东西搬到了 LLM 身上。
人类阅读研究早就发现:常见的词,人读得快。那大模型呢?
香港中文大学团队在 arXiv:2604.02176 里给了一个直接的答案——LLM 也偏好高频文本。他们把这种现象命名为 Adam's Law(文本频率定律,TFL),并且做了一套完整的框架来验证和利用它。
核心思路不复杂,但效果出人意料
论文的三步框架逻辑很干净:
第一步,估频率。 既然很多模型的训练数据是闭源的,团队直接用在线资源估算句子级别的文本频率。说白了就是查一查网上有多少地方用过类似的表达。
第二步,改写。 用一个 input paraphraser 把用户的输入改写成更高频的表达。不是换内容,是换说法。比如把一个拗口的学术句式改成更口语化、更常见的说法。
第三步,课程学习微调。 他们提出 Curriculum Textual Frequency Training(CTFT),按照句子频率从低到高的顺序微调模型。先学难的(低频),再学简单的(高频)。
四组实验——数学推理、机器翻译、常识推理、Agent 工具调用——结果一致:频率高的表达,模型理解得更好。
这件事的意义在哪
先说一个容易被忽略的点。过去我们对 prompt engineering 的直觉是"越精确越好"——给模型一个清晰、严谨、无歧义的表达。但 Adam's Law 提示了一个反直觉的方向:有时候"常见"比"精确"更有效。
这不是说要牺牲准确性。同一个意思,用常见的句式表达,模型的处理效率更高。这背后可能跟预训练数据的分布有关——模型在训练时见过的常见表达模式更多,对应的激活路径更熟练。
从实操角度,这给 prompt 优化提供了一个新维度。除了"让 prompt 更具体",还可以考虑"让 prompt 更常见"。
局限也要看明白
论文的框架有几个前提条件,用的时候得注意:
- 频率估算依赖在线资源。 对于高度专业化的领域(比如某个细分行业的术语),在线资源可能不够覆盖,频率估算就不准了。
- paraphraser 本身是个模型。 改写质量取决于 paraphraser 的能力,引入了额外的推理成本。
- CTFT 需要微调。 不是零样本方案,得有算力和数据。
另外,这个发现目前只在四个任务上验证了。对于代码生成、长文本推理这类任务是否同样适用,还需要更多实验。
一个值得跟的方向
如果说 Zipf 定律(词频分布定律)是自然语言的"万有引力",那 Adam's Law 可能就是 LLM 训练语料分布在模型行为上的投影。
有意思的是,这个发现跟另一个方向的工作——模型可解释性研究中发现的"激活稀疏性"现象——似乎有某种内在联系。模型对高频输入的响应路径更高效,这是否意味着我们可以设计一种"频率感知"的推理加速方案?
这个我没打算现在就做。但如果有团队顺着这个方向深挖,我会很关注。
主要来源:
- arXiv:2604.02176 - Adam's Law: Textual Frequency Law on Large Language Models(ACL 2026 Main Conference)
- HuggingFace Daily Papers 2026-05-12