C
ChaoBro

Self-Distilled Agentic RL: Агент учит сам себя — новый подход к обучению с подкреплением

Self-Distilled Agentic RL: Агент учит сам себя — новый подход к обучению с подкреплением

Все идут по пути агент + RL, но стоимость обучения — unavoidable проблема. Традиционные подходы либо используют размеченные человеком данные для supervised fine-tuning, либо полагаются на более мощную «модель-учителя» — оба варианта дорогие.

Self-Distilled Agentic Reinforcement Learning предлагает: пусть агент будет своим собственным учителем.

Как работает само-дистилляция

Базовый процесс несложен:

  1. Агент выполняет задачи в среде, собирая траектории
  2. Отфильтроввает высококачественное подмножество (высокая награда, короткие шаги, успешное выполнение)
  3. Использует эти траектории как «самосгенерированные обучающие данные» для дистилляционного обновления самого агента
  4. Итерация: обновлённый агент порождает лучшие траектории, те — лучшие данные для дистилляции

Сердце этого цикла — «фильтрация». Не все траектории полезны, только хорошо выполненные заслуживают дистилляции. Это создаёт положительную обратную связь.

Почему это важно

Болевые точки традиционного RL-обучения агентов:

  • Низкая эффективность выборки: нужны огромные объёмы взаимодействий
  • Редкие награды: многие задачи дают сигнал награды только в конце
  • Модели-учители дорогие: использование более сильных моделей эффективно, но кратно увеличивает затраты

Само-дистилляция — это механизм «саморефлексии» для агента.

Моя оценка

Направление self-distilled agentic RL верное. Будущее агентов — не в накоплении размеченных человеком данных, а в способности автономно учиться и эволюционировать через взаимодействие.

Основные источники:

  • Hugging Face Daily Papers (2026-05-15)
  • Команда авторов (11 человек)