Agent 强化学习的一个痛点
强化学习在后训练 LLM Agent 方面已经证明了有效性——GRPO 等一系列方法让模型学会了在工具调用、网页操作、问答等场景中做出更好的决策。
但 GRPO 有一个根本性的限制:它只在轨迹级别提供奖励信号。 对于一个多轮交互任务,最终的成功或失败被当作一个整体信号回传,中间每一步的 token 级决策都只能分到一份极其粗糙的监督。
这就像教练只在比赛结束时告诉你"赢了"或"输了",却不告诉你在哪个回合、哪一步做错了。
自蒸馏的诱惑和陷阱
On-Policy Self-Distillation(OPSD)提供了一种补充方案:用一个拥有特权上下文的 teacher branch 生成 token 级的密集指导信号。理想情况下,它能为每一步决策提供精细的反馈。
但把 OPSD 直接搬到多轮 Agent 场景中,会遇到两个问题:
第一,多轮不稳定性会累积。 在多轮交互中,每一步的误差会被放大,teacher 的监督信号本身就不稳定。
第二,teacher 也会犯错。 当 teacher 拒绝某个动作时,你不知道是因为这个动作真的不好,还是因为 teacher 自己的技能检索出了问题。
SDAR 的核心设计:门控辅助目标
SDAR 的做法很聪明:它不把 OPSD 当作主要优化目标,而是把它当作一个 门控辅助目标(gated auxiliary objective)。RL 仍然是主优化骨干,OPSD 只提供 token 级的补充信号。
具体怎么做?SDAR 将 teacher 的 token 级信号映射到一个 sigmoid 门控函数上:
- teacher 认可的"正差距"token:蒸馏信号被加强
- teacher 拒绝的"负差距"token:蒸馏信号被柔和衰减,而不是粗暴地当作负面样本
这个设计的精妙之处在于它承认了 teacher 的不完美性——teacher 的拒绝可能是合理的,也可能是误判。所以不是一刀切地否定,而是"柔和衰减"。
实验结果
在 Qwen2.5 和 Qwen3 系列模型上,SDAR 在三个基准上全面超越了 GRPO:
| 基准 | 相比 GRPO 的提升 |
|---|---|
| ALFWorld | +9.4% |
| WebShop (Acc) | +10.2% |
| Search-QA | +7.0% |
更重要的是,SDAR 避免了朴素 GRPO+OPSD 组合的不稳定性。论文中对比了多种 RL-OPSD 混合基线,SDAR 在不同模型规模下都保持一致的领先。
为什么这个工作值得关注
Agent 强化学习正在成为 LLM 后训练的主流方向。GRPO 之后,社区一直在寻找更好的多轮训练方法。SDAR 的贡献在于它指出了 OPSD 在多轮场景中的两个被忽视的问题(累积不稳定性和 teacher 误判),并给出了一个简单但有效的解决方案。
门控辅助目标的思路可能对更广泛的 RLHF/RLAIF 场景都有借鉴价值——当外部监督信号质量不稳定时,不要让它主导训练,而是让它以门控的方式"温和地"影响主优化过程。
主要来源:
- arXiv:2605.15155 SDAR
- Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen