小红书的推理 RL 新思路：不让学生模仿老师，而是让学生跟老师对着干

自蒸馏这个思路在推理模型训练里已经不是什么新鲜事了：拿一个有特权的上下文（比如验证过的答案），让模型在训练时向"带答案版本的自己"靠拢。

理论上很合理。但实际跑数学推理的时候，效果时好时坏。

这篇来自小红书团队（rednote-hilab）的论文先做了件好事——先搞清楚为什么不行，再提出怎么改。

问题出在"特权上下文"本身

论文用逐点互信息（PMI）分析发现了一个反直觉的现象：

特权上下文（已知答案）让模型在两类 token 上的行为出了偏差——

对"结构型 token"过度自信：比如连接词、可验证的声明。这些 token 本身就能从答案里推出来，模型学到了"这个我知道"。
对"思考型 token"信心不足：比如"Wait"、"Let"、"Maybe"——这些推动多步搜索的 deliberation token，在知道答案的情况下反而被弱化了。

换句话说：当你给模型看了答案，它就变得懒得思考了。 因为答案已经在那里，那些"让我想想"、"等一下"、"可能的情况是"这类探索性的推理步骤就不再必要。

这就像考试前有人把答案给了你——你确实能记住正确答案，但你失去了做题过程中的思考训练。

解决方案出乎意料地简洁：不让学生向老师靠近，而是让它们分开。

具体来说，Anti-SD 最大化学生和教师之间的散度（divergence），而不是最小化。这翻转了每个 token 的梯度方向，一步就产生了一个天然有界的优势项。

还有一个工程上的小技巧：用熵触发门控。当教师的熵崩溃（也就是模型已经"确定"了）时，自动关闭 Anti-SD 项。这样就是一个即插即用的替换，不需要改动训练框架。

4B 到 30B 五个模型，数学推理基准测试：

这个数字在推理模型训练里是很可观的。GRPO 已经是 DeepSeek-R1 路线上验证过的有效方法，Anti-SD 能在它的基础上再提速这么多，说明方向是对的。

推理能力是 2026 年大模型竞争的焦点。OpenAI 的 o1/o3、DeepSeek-R1、Kimi K2 都在用不同的方法训练"让模型自己思考"。

Anti-SD 提供了一条不需要外部强教师的路径——模型可以通过自己的训练信号来 bootstrapping 推理能力。这在算力有限或者没有 GPT-5 级别教师模型可用的场景下，价值很大。

当然，目前只在数学推理上做了验证。代码生成、逻辑推理、多模态推理能不能同样受益，还需要后续实验。但 PMI 分析揭示的"知道答案导致不思考"这个机制，应该是普遍存在的。

论文：Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information 作者团队：rednote-hilab（小红书）