AEM：追加監督なしでマルチターン Agent RL の credit assignment を解決

マルチターン Agent 強化学習には古くからの問題がある：環境はタスク完了時にのみ結果報酬を与え、中間ステップにはフィードバックがない。credit assignment——最終結果を各ステップにどう配分するか——がボトルネックになっている。

一般的な解決策は密な中間監督の導入：プロセス報酬モデルや補助自己教師信号。しかしこれは監督の複雑さとチューニングコストを増やし、クロスタスク汎化を制限する可能性がある。

この論文は別の道を行く：追加監督なしで、適応的エントロピー変調で credit assignment を解決。

AEM の核心

著者はエントロピーダイナミクスをトークンレベルからレスポンスレベルに引き上げた。マルチターン Agent RL では環境は完全なレスポンスに影響されるため、レスポンスレベルで不確実性推定を揃えることでトークンレベルのサンプリングノイズへの感受性を低減できる。

ALFWorld、WebShop、SWE-bench-Verified で 1.5B〜32B モデルをテスト。AEM は強力な RL ベースラインを一貫して改善、SOTA ソフトウェアエンジニアリング RL 訓練フレームワークへの統合で +1.4% の改善。

主要ソース：

arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026