C
ChaoBro

SDAR:当自蒸馏遇上 Agent 强化学习,GRPO 的稳定性问题被这样解决

Agent 强化学习的一个痛点

强化学习在后训练 LLM Agent 方面已经证明了有效性——GRPO 等一系列方法让模型学会了在工具调用、网页操作、问答等场景中做出更好的决策。

但 GRPO 有一个根本性的限制:它只在轨迹级别提供奖励信号。 对于一个多轮交互任务,最终的成功或失败被当作一个整体信号回传,中间每一步的 token 级决策都只能分到一份极其粗糙的监督。

这就像教练只在比赛结束时告诉你"赢了"或"输了",却不告诉你在哪个回合、哪一步做错了。

自蒸馏的诱惑和陷阱

On-Policy Self-Distillation(OPSD)提供了一种补充方案:用一个拥有特权上下文的 teacher branch 生成 token 级的密集指导信号。理想情况下,它能为每一步决策提供精细的反馈。

但把 OPSD 直接搬到多轮 Agent 场景中,会遇到两个问题:

第一,多轮不稳定性会累积。 在多轮交互中,每一步的误差会被放大,teacher 的监督信号本身就不稳定。

第二,teacher 也会犯错。 当 teacher 拒绝某个动作时,你不知道是因为这个动作真的不好,还是因为 teacher 自己的技能检索出了问题。

SDAR 的核心设计:门控辅助目标

SDAR 的做法很聪明:它不把 OPSD 当作主要优化目标,而是把它当作一个 门控辅助目标(gated auxiliary objective)。RL 仍然是主优化骨干,OPSD 只提供 token 级的补充信号。

具体怎么做?SDAR 将 teacher 的 token 级信号映射到一个 sigmoid 门控函数上:

  • teacher 认可的"正差距"token:蒸馏信号被加强
  • teacher 拒绝的"负差距"token:蒸馏信号被柔和衰减,而不是粗暴地当作负面样本

这个设计的精妙之处在于它承认了 teacher 的不完美性——teacher 的拒绝可能是合理的,也可能是误判。所以不是一刀切地否定,而是"柔和衰减"。

实验结果

在 Qwen2.5 和 Qwen3 系列模型上,SDAR 在三个基准上全面超越了 GRPO:

基准 相比 GRPO 的提升
ALFWorld +9.4%
WebShop (Acc) +10.2%
Search-QA +7.0%

更重要的是,SDAR 避免了朴素 GRPO+OPSD 组合的不稳定性。论文中对比了多种 RL-OPSD 混合基线,SDAR 在不同模型规模下都保持一致的领先。

为什么这个工作值得关注

Agent 强化学习正在成为 LLM 后训练的主流方向。GRPO 之后,社区一直在寻找更好的多轮训练方法。SDAR 的贡献在于它指出了 OPSD 在多轮场景中的两个被忽视的问题(累积不稳定性和 teacher 误判),并给出了一个简单但有效的解决方案。

门控辅助目标的思路可能对更广泛的 RLHF/RLAIF 场景都有借鉴价值——当外部监督信号质量不稳定时,不要让它主导训练,而是让它以门控的方式"温和地"影响主优化过程。


主要来源:

  • arXiv:2605.15155 SDAR
  • Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen