SDAR：当自蒸馏遇上 Agent 强化学习，GRPO 的稳定性问题被这样解决

Agent 强化学习的一个痛点

强化学习在后训练 LLM Agent 方面已经证明了有效性——GRPO 等一系列方法让模型学会了在工具调用、网页操作、问答等场景中做出更好的决策。

但 GRPO 有一个根本性的限制：它只在轨迹级别提供奖励信号。 对于一个多轮交互任务，最终的成功或失败被当作一个整体信号回传，中间每一步的 token 级决策都只能分到一份极其粗糙的监督。

这就像教练只在比赛结束时告诉你"赢了"或"输了"，却不告诉你在哪个回合、哪一步做错了。

On-Policy Self-Distillation（OPSD）提供了一种补充方案：用一个拥有特权上下文的 teacher branch 生成 token 级的密集指导信号。理想情况下，它能为每一步决策提供精细的反馈。

但把 OPSD 直接搬到多轮 Agent 场景中，会遇到两个问题：

第一，多轮不稳定性会累积。 在多轮交互中，每一步的误差会被放大，teacher 的监督信号本身就不稳定。

第二，teacher 也会犯错。 当 teacher 拒绝某个动作时，你不知道是因为这个动作真的不好，还是因为 teacher 自己的技能检索出了问题。

SDAR 的做法很聪明：它不把 OPSD 当作主要优化目标，而是把它当作一个 门控辅助目标（gated auxiliary objective）。RL 仍然是主优化骨干，OPSD 只提供 token 级的补充信号。

具体怎么做？SDAR 将 teacher 的 token 级信号映射到一个 sigmoid 门控函数上：

这个设计的精妙之处在于它承认了 teacher 的不完美性——teacher 的拒绝可能是合理的，也可能是误判。所以不是一刀切地否定，而是"柔和衰减"。

在 Qwen2.5 和 Qwen3 系列模型上，SDAR 在三个基准上全面超越了 GRPO：

更重要的是，SDAR 避免了朴素 GRPO+OPSD 组合的不稳定性。论文中对比了多种 RL-OPSD 混合基线，SDAR 在不同模型规模下都保持一致的领先。

Agent 强化学习正在成为 LLM 后训练的主流方向。GRPO 之后，社区一直在寻找更好的多轮训练方法。SDAR 的贡献在于它指出了 OPSD 在多轮场景中的两个被忽视的问题（累积不稳定性和 teacher 误判），并给出了一个简单但有效的解决方案。

门控辅助目标的思路可能对更广泛的 RLHF/RLAIF 场景都有借鉴价值——当外部监督信号质量不稳定时，不要让它主导训练，而是让它以门控的方式"温和地"影响主优化过程。

主要来源：

arXiv:2605.15155 SDAR
Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen