AEM: решение credit assignment в multi-turn agent RL без дополнительной супервизии

Multi-turn agent reinforcement learning имеет давнюю проблему: среда даёт результат только при завершении задачи, без промежуточной обратной связи. Credit assignment — как распределить финальный результат по шагам — остаётся瓶颈.

Обычные решения вводят плотную промежуточную супервизию: процессные модели вознаграждения, вспомогательные самообучающиеся сигналы. Но это добавляет сложность супервизии, затраты на настройку и может ограничить кросс-задачную генерализацию.

Эта статья идёт другим путём: никакой дополнительной супервизии, только адаптивная модуляция энтропии для credit assignment.

Авторы поднимают динамику энтропии с уровня токенов до уровня ответов. На ALFWorld, WebShop и SWE-bench-Verified с моделями от 1.5B до 32B AEM стабильно улучшает сильные RL baseline, включая +1.4% при интеграции в SOTA фреймворк RL-обучения для software engineering.

Источники:

arXiv:2605.00425, "AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning", Haotian Zhao et al., May 2026

Похожие материалы

Aider на 44K звёзд: AI-парное программирование в терминале — работает ли на самом деле?

Cline на 60K звёзд: автономный агент для программирования переходит на SDK — стоит ли внимания?

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов