Multi-turn agent reinforcement learning имеет давнюю проблему: среда даёт результат только при завершении задачи, без промежуточной обратной связи. Credit assignment — как распределить финальный результат по шагам — остаётся瓶颈.
Обычные решения вводят плотную промежуточную супервизию: процессные модели вознаграждения, вспомогательные самообучающиеся сигналы. Но это добавляет сложность супервизии, затраты на настройку и может ограничить кросс-задачную генерализацию.
Эта статья идёт другим путём: никакой дополнительной супервизии, только адаптивная модуляция энтропии для credit assignment.
Авторы поднимают динамику энтропии с уровня токенов до уровня ответов. На ALFWorld, WebShop и SWE-bench-Verified с моделями от 1.5B до 32B AEM стабильно улучшает сильные RL baseline, включая +1.4% при интеграции в SOTA фреймворк RL-обучения для software engineering.
Источники:
- arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026