Все идут по пути агент + RL, но стоимость обучения — unavoidable проблема. Традиционные подходы либо используют размеченные человеком данные для supervised fine-tuning, либо полагаются на более мощную «модель-учителя» — оба варианта дорогие.
Self-Distilled Agentic Reinforcement Learning предлагает: пусть агент будет своим собственным учителем.
Как работает само-дистилляция
Базовый процесс несложен:
- Агент выполняет задачи в среде, собирая траектории
- Отфильтроввает высококачественное подмножество (высокая награда, короткие шаги, успешное выполнение)
- Использует эти траектории как «самосгенерированные обучающие данные» для дистилляционного обновления самого агента
- Итерация: обновлённый агент порождает лучшие траектории, те — лучшие данные для дистилляции
Сердце этого цикла — «фильтрация». Не все траектории полезны, только хорошо выполненные заслуживают дистилляции. Это создаёт положительную обратную связь.
Почему это важно
Болевые точки традиционного RL-обучения агентов:
- Низкая эффективность выборки: нужны огромные объёмы взаимодействий
- Редкие награды: многие задачи дают сигнал награды только в конце
- Модели-учители дорогие: использование более сильных моделей эффективно, но кратно увеличивает затраты
Само-дистилляция — это механизм «саморефлексии» для агента.
Моя оценка
Направление self-distilled agentic RL верное. Будущее агентов — не в накоплении размеченных человеком данных, а в способности автономно учиться и эволюционировать через взаимодействие.
Основные источники:
- Hugging Face Daily Papers (2026-05-15)
- Команда авторов (11 человек)