マルチターン Agent 強化学習には古くからの問題がある:環境はタスク完了時にのみ結果報酬を与え、中間ステップにはフィードバックがない。credit assignment——最終結果を各ステップにどう配分するか——がボトルネックになっている。
一般的な解決策は密な中間監督の導入:プロセス報酬モデルや補助自己教師信号。しかしこれは監督の複雑さとチューニングコストを増やし、クロスタスク汎化を制限する可能性がある。
この論文は別の道を行く:追加監督なしで、適応的エントロピー変調で credit assignment を解決。
AEM の核心
著者はエントロピーダイナミクスをトークンレベルからレスポンスレベルに引き上げた。マルチターン Agent RL では環境は完全なレスポンスに影響されるため、レスポンスレベルで不確実性推定を揃えることでトークンレベルのサンプリングノイズへの感受性を低減できる。
ALFWorld、WebShop、SWE-bench-Verified で 1.5B〜32B モデルをテスト。AEM は強力な RL ベースラインを一貫して改善、SOTA ソフトウェアエンジニアリング RL 訓練フレームワークへの統合で +1.4% の改善。
主要ソース:
- arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026