Self-Distilled Agentic RL: Агент учит сам себя — новый подход к обучению с подкреплением

Все идут по пути агент + RL, но стоимость обучения — unavoidable проблема. Традиционные подходы либо используют размеченные человеком данные для supervised fine-tuning, либо полагаются на более мощную «модель-учителя» — оба варианта дорогие.

Self-Distilled Agentic Reinforcement Learning предлагает: пусть агент будет своим собственным учителем.

Как работает само-дистилляция

Базовый процесс несложен:

Агент выполняет задачи в среде, собирая траектории
Отфильтроввает высококачественное подмножество (высокая награда, короткие шаги, успешное выполнение)
Использует эти траектории как «самосгенерированные обучающие данные» для дистилляционного обновления самого агента
Итерация: обновлённый агент порождает лучшие траектории, те — лучшие данные для дистилляции

Сердце этого цикла — «фильтрация». Не все траектории полезны, только хорошо выполненные заслуживают дистилляции. Это создаёт положительную обратную связь.

Почему это важно

Болевые точки традиционного RL-обучения агентов:

Низкая эффективность выборки: нужны огромные объёмы взаимодействий
Редкие награды: многие задачи дают сигнал награды только в конце
Модели-учители дорогие: использование более сильных моделей эффективно, но кратно увеличивает затраты

Само-дистилляция — это механизм «саморефлексии» для агента.

Моя оценка

Направление self-distilled agentic RL верное. Будущее агентов — не в накоплении размеченных человеком данных, а в способности автономно учиться и эволюционировать через взаимодействие.

Основные источники:

Hugging Face Daily Papers (2026-05-15)
Команда авторов (11 человек)

Как работает само-дистилляция

Почему это важно

Моя оценка

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание