Анти-самодистилляция: обратная самодистилляция, ускоряющая обучение RL для рассуждений в 2–10 раз

Это исследование содержит открытие, которое на первый взгляд кажется контринтуитивным, однако при внимательном рассмотрении оказывается полностью логичным.

Странный паттерн провала

Работа начинается с наблюдения одного явления: on-policy-самодистилляция демонстрирует высокую эффективность в ряде задач, но проявляет нестабильность при решении задач математических рассуждений.

Основная идея самодистилляции заключается в том, что модель-ученик обучается у собственной копии — модели-учителя, которой предоставляется привилегированный контекст (например, верифицированное решение или обратная связь). Для этого не требуется более сильный внешний учитель: модель учится сама у себя.

Однако в задачах математических рассуждений такой подход зачастую терпит неудачу.

Анализ PMI: проблема кроется в самом «привилегированном контексте»

Исследовательская группа выявила причину с помощью анализа точечной взаимной информации (PMI): привилегированный контекст сам по себе завышает уверенность учителя в определённых токенах, а именно — в структурных соединительных словах и проверяемых утверждениях, уже неявно содержащихся в решении. В то же время он снижает уверенность в токенах, отвечающих за рассуждения (deliberation tokens) — таких как «Wait», «Let», «Maybe», которые стимулируют многошаговый поиск.

Проще говоря: показывая модели готовый ответ, мы повышаем её уверенность в использовании формата ответа, но одновременно снижаем склонность тратить время на «мышление».

Anti-SD: противоположный подход

Идея Anti-Self-Distillation (AntiSD) предельно проста: если самодистилляция, направленная на сближение ученика и учителя, вызывает проблемы, то следует намеренно увеличить их расхождение — повысить, а не снизить дивергенцию.

Конкретно это реализуется путём инверсии знака градиента для каждого токена, что естественным образом обеспечивает ограниченное преимущество за один шаг. Кроме того, вводится энтропийный триггерный механизм управления (entropy-triggered gating): когда энтропия учителя резко падает («коллапсирует»), соответствующий член потерь отключается, что позволяет напрямую заменить стандартную самодистилляцию без модификации общей архитектуры обучения.

Результаты производительности

Цифры убедительны:

Тестирование проведено на бенчмарке математических рассуждений для пяти моделей объёмом от 4 млрд до 30 млрд параметров;
AntiSD достигает той же точности, что и базовый метод GRPO, за в 2–10 раз меньшее число шагов обучения;
Максимальный прирост итоговой точности составляет 11,5 балла.

Почему это важно

Ключевой вклад данной работы заключается не только в предложении более эффективного метода обучения, но и в выявлении фундаментального противоречия самодистилляции при решении задач рассуждения: показ ответа модели может фактически ослабить её способность к рассуждению.

AntiSD открывает путь к масштабируемому самоусовершенствованию — языковые модели могут направлять развитие собственных рассуждательных способностей с помощью внутренних сигналов обучения. Это имеет потенциальное значение для парадигмального сдвига в методологии обучения моделей рассуждения.

Ссылка на статью: arXiv:2605.11609

Странный паттерн провала

Анализ PMI: проблема кроется в самом «привилегированном контексте»

Anti-SD: противоположный подход

Результаты производительности

Почему это важно

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов