这篇论文的发现非常反直觉,但仔细一想又完全说得通。
一个奇怪的失败模式
论文从观察到一个现象开始:on-policy 自蒸馏在某些地方效果很好,但在数学推理上却不稳定。
自蒸馏的基本思路是:让学生模型向自己的一个副本学习,这个副本拥有特权上下文(比如验证过的解答或反馈)。不需要更强的外部教师,模型自己教自己。
但在数学推理任务上,这个方法经常失效。
PMI 分析:问题出在"特权上下文"本身
团队用点互信息(PMI)分析找到了原因:特权上下文本身会膨胀教师对某些 token 的置信度——那些已被解法隐含的结构连接词和可验证声明。同时,它会压低对推理 deliberation token 的置信度——"Wait"、"Let"、"Maybe" 这些驱动多步搜索的词。
简单说:给模型看答案,会让它更自信地写出答案格式的词,但更不愿意花时间去"思考"。
Anti-SD:反其道而行
Anti-Self-Distillation(AntiSD)的思路很直接:既然自蒸馏让学生向教师靠拢有问题,那就让学生与教师发散——上升而非下降散度。
具体做法是反转每个 token 的符号,一步之内自然产生有界的优势。同时引入一个熵触发门控:当教师熵崩溃时禁用该 term,完成对默认自蒸馏的直接替换。
性能结果
数字很有说服力:
- 在 4B 到 30B 共 5 个模型上测试数学推理基准
- AntiSD 以 GRPO 基线 2-10 倍的步数达到相同准确率
- 最终准确率最高提升 11.5 分
为什么值得关注
这篇论文的核心贡献不只是提出了一个更好的训练方法,而是揭示了自蒸馏在推理任务中的根本矛盾:给模型看答案,反而可能削弱它的推理能力。
AntiSD 打开了一个通往可扩展自我改进的路径——语言模型通过自己的训练信号来引导自己的推理能力。这对于推理模型的训练范式有潜在的范式转换意义。
论文地址:arXiv:2605.11609