AEM：不靠额外监督的多轮 Agent RL，用熵调制解决 credit assignment

多轮 Agent 强化学习有个老问题：环境只在任务结束时给一个结果奖励，中间每一步做了什么都得不到反馈。credit assignment——怎么把最终结果分配到每一步——成了瓶颈。

常见的解决方案是引入密集中间监督：过程奖励模型、辅助自监督信号。但这增加了监督复杂度和调参成本，还可能限制跨任务泛化。

这篇论文走了另一条路：不引入任何额外监督，用熵动态调制来解决 credit assignment。

AEM 的核心思路

作者把熵动态从 token 级别提升到了 response 级别。理由是：在多轮 Agent RL 中，环境影响的是完整的一次 response，而不是单个 token。在 response 级别对齐不确定性估计，能降低对 token 级别采样噪声的敏感度。

进一步的理论分析发现：natural-gradient update 下的熵漂移由采样 response 的 advantage 和它的 relative surprisal 之间的交互决定。基于这个结果，AEM 推导出了一个实用的 response 级别不确定性代理，用它来重缩放 advantage，利用正负样本比例的演变自然地从探索过渡到利用。

实验结果

在 ALFWorld、WebShop 和 SWE-bench-Verified 上，1.5B 到 32B 的模型都测试了。AEM 一致提升了强 RL 基线，包括在 SOTA 软件工程 RL 训练框架中集成后 +1.4% 的提升。

我的判断

不用过程奖励模型就能改善 credit assignment，这个方向是对的。过程奖励模型需要额外训练和调参，在工业部署中是实打实的成本。AEM 的方法只修改了 advantage 的缩放方式，改动很小但效果稳定。

不过 SWE-bench-Verified 上 +1.4% 的提升不算大。对于已经有很强 RL 基线的团队，这个增量是否值得引入新的训练逻辑，需要算成本收益。对于从零开始做 Agent RL 的团队，AEM 提供了一个不需要额外监督组件的起点。

主要来源：

arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026

AEM 的核心思路

实验结果

我的判断

相关内容

Aider 44K 星：终端里的 AI 结对编程，到底好不好用？

Cline：6 万星的自主编程 Agent，SDK 化之后到底能不能打？

Codegraph：给 Claude Code 建一个本地知识图谱，token 和工具调用双双减少