自蒸馏这个思路在推理模型训练里已经不是什么新鲜事了:拿一个有特权的上下文(比如验证过的答案),让模型在训练时向"带答案版本的自己"靠拢。
理论上很合理。但实际跑数学推理的时候,效果时好时坏。
这篇来自小红书团队(rednote-hilab)的论文先做了件好事——先搞清楚为什么不行,再提出怎么改。
问题出在"特权上下文"本身
论文用逐点互信息(PMI)分析发现了一个反直觉的现象:
特权上下文(已知答案)让模型在两类 token 上的行为出了偏差——
- 对"结构型 token"过度自信:比如连接词、可验证的声明。这些 token 本身就能从答案里推出来,模型学到了"这个我知道"。
- 对"思考型 token"信心不足:比如"Wait"、"Let"、"Maybe"——这些推动多步搜索的 deliberation token,在知道答案的情况下反而被弱化了。
换句话说:当你给模型看了答案,它就变得懒得思考了。 因为答案已经在那里,那些"让我想想"、"等一下"、"可能的情况是"这类探索性的推理步骤就不再必要。
这就像考试前有人把答案给了你——你确实能记住正确答案,但你失去了做题过程中的思考训练。
Anti-SD:反着来
解决方案出乎意料地简洁:不让学生向老师靠近,而是让它们分开。
具体来说,Anti-SD 最大化学生和教师之间的散度(divergence),而不是最小化。这翻转了每个 token 的梯度方向,一步就产生了一个天然有界的优势项。
还有一个工程上的小技巧:用熵触发门控。当教师的熵崩溃(也就是模型已经"确定"了)时,自动关闭 Anti-SD 项。这样就是一个即插即用的替换,不需要改动训练框架。
效果
4B 到 30B 五个模型,数学推理基准测试:
- 用 GRPO 2-10 倍少的训练步数就能达到 GRPO 的基线精度
- 最终精度最高提升了 11.5 个点
这个数字在推理模型训练里是很可观的。GRPO 已经是 DeepSeek-R1 路线上验证过的有效方法,Anti-SD 能在它的基础上再提速这么多,说明方向是对的。
这为什么值得关注
推理能力是 2026 年大模型竞争的焦点。OpenAI 的 o1/o3、DeepSeek-R1、Kimi K2 都在用不同的方法训练"让模型自己思考"。
Anti-SD 提供了一条不需要外部强教师的路径——模型可以通过自己的训练信号来 bootstrapping 推理能力。这在算力有限或者没有 GPT-5 级别教师模型可用的场景下,价值很大。
当然,目前只在数学推理上做了验证。代码生成、逻辑推理、多模态推理能不能同样受益,还需要后续实验。但 PMI 分析揭示的"知道答案导致不思考"这个机制,应该是普遍存在的。
论文:Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information 作者团队:rednote-hilab(小红书)