多轮 Agent 强化学习有个老问题:环境只在任务结束时给一个结果奖励,中间每一步做了什么都得不到反馈。credit assignment——怎么把最终结果分配到每一步——成了瓶颈。
常见的解决方案是引入密集中间监督:过程奖励模型、辅助自监督信号。但这增加了监督复杂度和调参成本,还可能限制跨任务泛化。
这篇论文走了另一条路:不引入任何额外监督,用熵动态调制来解决 credit assignment。
AEM 的核心思路
作者把熵动态从 token 级别提升到了 response 级别。理由是:在多轮 Agent RL 中,环境影响的是完整的一次 response,而不是单个 token。在 response 级别对齐不确定性估计,能降低对 token 级别采样噪声的敏感度。
进一步的理论分析发现:natural-gradient update 下的熵漂移由采样 response 的 advantage 和它的 relative surprisal 之间的交互决定。基于这个结果,AEM 推导出了一个实用的 response 级别不确定性代理,用它来重缩放 advantage,利用正负样本比例的演变自然地从探索过渡到利用。
实验结果
在 ALFWorld、WebShop 和 SWE-bench-Verified 上,1.5B 到 32B 的模型都测试了。AEM 一致提升了强 RL 基线,包括在 SOTA 软件工程 RL 训练框架中集成后 +1.4% 的提升。
我的判断
不用过程奖励模型就能改善 credit assignment,这个方向是对的。过程奖励模型需要额外训练和调参,在工业部署中是实打实的成本。AEM 的方法只修改了 advantage 的缩放方式,改动很小但效果稳定。
不过 SWE-bench-Verified 上 +1.4% 的提升不算大。对于已经有很强 RL 基线的团队,这个增量是否值得引入新的训练逻辑,需要算成本收益。对于从零开始做 Agent RL 的团队,AEM 提供了一个不需要额外监督组件的起点。
主要来源:
- arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026