Это исследование содержит открытие, которое на первый взгляд кажется контринтуитивным, однако при внимательном рассмотрении оказывается полностью логичным.
Странный паттерн провала
Работа начинается с наблюдения одного явления: on-policy-самодистилляция демонстрирует высокую эффективность в ряде задач, но проявляет нестабильность при решении задач математических рассуждений.
Основная идея самодистилляции заключается в том, что модель-ученик обучается у собственной копии — модели-учителя, которой предоставляется привилегированный контекст (например, верифицированное решение или обратная связь). Для этого не требуется более сильный внешний учитель: модель учится сама у себя.
Однако в задачах математических рассуждений такой подход зачастую терпит неудачу.
Анализ PMI: проблема кроется в самом «привилегированном контексте»
Исследовательская группа выявила причину с помощью анализа точечной взаимной информации (PMI): привилегированный контекст сам по себе завышает уверенность учителя в определённых токенах, а именно — в структурных соединительных словах и проверяемых утверждениях, уже неявно содержащихся в решении. В то же время он снижает уверенность в токенах, отвечающих за рассуждения (deliberation tokens) — таких как «Wait», «Let», «Maybe», которые стимулируют многошаговый поиск.
Проще говоря: показывая модели готовый ответ, мы повышаем её уверенность в использовании формата ответа, но одновременно снижаем склонность тратить время на «мышление».
Anti-SD: противоположный подход
Идея Anti-Self-Distillation (AntiSD) предельно проста: если самодистилляция, направленная на сближение ученика и учителя, вызывает проблемы, то следует намеренно увеличить их расхождение — повысить, а не снизить дивергенцию.
Конкретно это реализуется путём инверсии знака градиента для каждого токена, что естественным образом обеспечивает ограниченное преимущество за один шаг. Кроме того, вводится энтропийный триггерный механизм управления (entropy-triggered gating): когда энтропия учителя резко падает («коллапсирует»), соответствующий член потерь отключается, что позволяет напрямую заменить стандартную самодистилляцию без модификации общей архитектуры обучения.
Результаты производительности
Цифры убедительны:
- Тестирование проведено на бенчмарке математических рассуждений для пяти моделей объёмом от 4 млрд до 30 млрд параметров;
- AntiSD достигает той же точности, что и базовый метод GRPO, за в 2–10 раз меньшее число шагов обучения;
- Максимальный прирост итоговой точности составляет 11,5 балла.
Почему это важно
Ключевой вклад данной работы заключается не только в предложении более эффективного метода обучения, но и в выявлении фундаментального противоречия самодистилляции при решении задач рассуждения: показ ответа модели может фактически ослабить её способность к рассуждению.
AntiSD открывает путь к масштабируемому самоусовершенствованию — языковые модели могут направлять развитие собственных рассуждательных способностей с помощью внутренних сигналов обучения. Это имеет потенциальное значение для парадигмального сдвига в методологии обучения моделей рассуждения.
Ссылка на статью: arXiv:2605.11609