Одна из ключевых проблем агентного обучения с подкреплением
Обучение с подкреплением уже доказало свою эффективность при дообучении LLM-агентов — такие методы, как GRPO, позволяют моделям принимать более качественные решения при вызове инструментов, навигации по веб-страницам и ответах на вопросы.
Однако у GRPO имеется фундаментальное ограничение: он предоставляет сигнал вознаграждения только на уровне всей траектории. В задаче с многошаговым взаимодействием окончательный успех или провал интерпретируются как единый сигнал, возвращаемый в конце, тогда как каждое токен-уровневое решение на промежуточных шагах получает лишь крайне грубую форму надзора.
Это похоже на то, как тренер сообщает вам после матча лишь «вы выиграли» или «вы проиграли», но не указывает, на каком этапе и в каком конкретном ходе вы допустили ошибку.
Привлекательность и ловушки самообучения-дистилляции
On-Policy Self-Distillation (OPSD) предлагает дополнительный подход: использование «учительской» ветви с расширенным контекстом для генерации плотных, токен-уровневых обучающих сигналов. В идеальном случае такой подход обеспечивает детализированную обратную связь для каждого отдельного шага принятия решения.
Однако прямое применение OPSD в сценариях многошагового взаимодействия агента порождает две проблемы:
Во-первых, нестабильность накапливается по ходу нескольких шагов. На каждом шаге взаимодействия ошибка усиливается, и сам обучающий сигнал от «учителя» становится нестабильным.
Во-вторых, «учитель» тоже может ошибаться. Когда «учитель» отвергает определённое действие, остаётся неясным: действительно ли это действие некорректно, или же отказ вызван сбоем в собственной системе поиска действий у «учителя».
Ключевая идея SDAR: управляемая вспомогательная цель
Подход SDAR отличается изяществом: он не рассматривает OPSD как основную целевую функцию оптимизации, а использует её в качестве управляемой вспомогательной цели (gated auxiliary objective). Основным каркасом оптимизации остаётся обучение с подкреплением (RL), а OPSD лишь дополняет его токен-уровневыми сигналами.
Как именно это реализуется? SDAR отображает токен-уровневые сигналы «учителя» в сигмоидную управляющую функцию:
- Токены с «положительным разрывом», одобренные «учителем»: сигнал дистилляции усиливается.
- Токены с «отрицательным разрывом», отвергнутые «учителем»: сигнал дистилляции плавно ослабляется, а не жёстко маркируется как отрицательный пример.
Суть этого решения заключается в признании несовершенства «учителя» — его отказ может быть обоснованным, но может также являться ошибочным суждением. Поэтому вместо категоричного отрицания применяется «плавное ослабление».
Результаты экспериментов
На моделях серии Qwen2.5 и Qwen3 SDAR последовательно превосходит GRPO на трёх бенчмарках:
| Бенчмарк | Улучшение относительно GRPO |
|---|---|
| ALFWorld | +9,4 % |
| WebShop (Acc) | +10,2 % |
| Search-QA | +7,0 % |
Что ещё важнее, SDAR полностью избегает нестабильности, характерной для наивного сочетания GRPO и OPSD. В статье представлен сравнительный анализ различных гибридных базовых решений RL–OPSD; SDAR демонстрирует стабильно лидирующие результаты при всех масштабах моделей.
Почему эта работа заслуживает внимания
Агентное обучение с подкреплением всё активнее становится доминирующим направлением дообучения LLM. После появления GRPO сообщество продолжает поиск более эффективных методов обучения в многошаговых сценариях. Вклад SDAR заключается в выявлении двух ранее игнорировавшихся проблем применения OPSD в таких сценариях — накопительной нестабильности и ошибочных суждений «учителя» — и предложении простого, но эффективного решения.
Идея управляемой вспомогательной цели может оказаться полезной и в более широком круге задач RLHF/RLAIF — когда качество внешних обучающих сигналов нестабильно, их не следует допускать к доминированию в процессе обучения; вместо этого они должны «мягко» влиять на основной процесс оптимизации через управляемый механизм.
Основные источники:
- arXiv:2605.15155 SDAR
- Чжэнси Лю, Чжиюнь Яо, Чжуовэнь Хань, Цзы-Хань Ван, Цзиньян У, Ци Гу, Сюньлян Цай, Вэймин Лу, Цзюнь Сяо, Юэтин Чжуан, Юнлян Шэнь