C
ChaoBro

小红书的推理 RL 新思路:不让学生模仿老师,而是让学生跟老师对着干

小红书的推理 RL 新思路:不让学生模仿老师,而是让学生跟老师对着干

自蒸馏这个思路在推理模型训练里已经不是什么新鲜事了:拿一个有特权的上下文(比如验证过的答案),让模型在训练时向"带答案版本的自己"靠拢。

理论上很合理。但实际跑数学推理的时候,效果时好时坏。

这篇来自小红书团队(rednote-hilab)的论文先做了件好事——先搞清楚为什么不行,再提出怎么改。

问题出在"特权上下文"本身

论文用逐点互信息(PMI)分析发现了一个反直觉的现象:

特权上下文(已知答案)让模型在两类 token 上的行为出了偏差——

  • 对"结构型 token"过度自信:比如连接词、可验证的声明。这些 token 本身就能从答案里推出来,模型学到了"这个我知道"。
  • 对"思考型 token"信心不足:比如"Wait"、"Let"、"Maybe"——这些推动多步搜索的 deliberation token,在知道答案的情况下反而被弱化了。

换句话说:当你给模型看了答案,它就变得懒得思考了。 因为答案已经在那里,那些"让我想想"、"等一下"、"可能的情况是"这类探索性的推理步骤就不再必要。

这就像考试前有人把答案给了你——你确实能记住正确答案,但你失去了做题过程中的思考训练。

Anti-SD:反着来

解决方案出乎意料地简洁:不让学生向老师靠近,而是让它们分开。

具体来说,Anti-SD 最大化学生和教师之间的散度(divergence),而不是最小化。这翻转了每个 token 的梯度方向,一步就产生了一个天然有界的优势项。

还有一个工程上的小技巧:用熵触发门控。当教师的熵崩溃(也就是模型已经"确定"了)时,自动关闭 Anti-SD 项。这样就是一个即插即用的替换,不需要改动训练框架。

效果

4B 到 30B 五个模型,数学推理基准测试:

  • 用 GRPO 2-10 倍少的训练步数就能达到 GRPO 的基线精度
  • 最终精度最高提升了 11.5 个点

这个数字在推理模型训练里是很可观的。GRPO 已经是 DeepSeek-R1 路线上验证过的有效方法,Anti-SD 能在它的基础上再提速这么多,说明方向是对的。

这为什么值得关注

推理能力是 2026 年大模型竞争的焦点。OpenAI 的 o1/o3、DeepSeek-R1、Kimi K2 都在用不同的方法训练"让模型自己思考"。

Anti-SD 提供了一条不需要外部强教师的路径——模型可以通过自己的训练信号来 bootstrapping 推理能力。这在算力有限或者没有 GPT-5 级别教师模型可用的场景下,价值很大。

当然,目前只在数学推理上做了验证。代码生成、逻辑推理、多模态推理能不能同样受益,还需要后续实验。但 PMI 分析揭示的"知道答案导致不思考"这个机制,应该是普遍存在的。

论文:Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information 作者团队:rednote-hilab(小红书)