Anti-Self-Distillation：逆向自蒸馏，让推理 RL 训练提速 2-10 倍

这篇论文的发现非常反直觉，但仔细一想又完全说得通。

一个奇怪的失败模式

论文从观察到一个现象开始：on-policy 自蒸馏在某些地方效果很好，但在数学推理上却不稳定。

自蒸馏的基本思路是：让学生模型向自己的一个副本学习，这个副本拥有特权上下文（比如验证过的解答或反馈）。不需要更强的外部教师，模型自己教自己。

但在数学推理任务上，这个方法经常失效。

团队用点互信息（PMI）分析找到了原因：特权上下文本身会膨胀教师对某些 token 的置信度——那些已被解法隐含的结构连接词和可验证声明。同时，它会压低对推理 deliberation token 的置信度——"Wait"、"Let"、"Maybe" 这些驱动多步搜索的词。

简单说：给模型看答案，会让它更自信地写出答案格式的词，但更不愿意花时间去"思考"。

Anti-Self-Distillation（AntiSD）的思路很直接：既然自蒸馏让学生向教师靠拢有问题，那就让学生与教师发散——上升而非下降散度。

具体做法是反转每个 token 的符号，一步之内自然产生有界的优势。同时引入一个熵触发门控：当教师熵崩溃时禁用该 term，完成对默认自蒸馏的直接替换。

数字很有说服力：

这篇论文的核心贡献不只是提出了一个更好的训练方法，而是揭示了自蒸馏在推理任务中的根本矛盾：给模型看答案，反而可能削弱它的推理能力。

AntiSD 打开了一个通往可扩展自我改进的路径——语言模型通过自己的训练信号来引导自己的推理能力。这对于推理模型的训练范式有潜在的范式转换意义。