Что означает «уровень золотой медали на олимпиадах» для ИИ?
Международная математическая олимпиада (IMO) и Международная физическая олимпиада (IPhO) представляют собой высшую ступень интеллектуальных соревнований между людьми. Золотые медалистки и медалисты этих олимпиад — как правило, самые одарённые представители своего поколения во всём мире.
Когда ИИ-модель заявляет о достижении «уровня золотой медали», важно чётко понимать смысл этого утверждения: речь идёт не о том, что ИИ может участвовать в олимпиаде и завоевать награду, а о том, что точность её решений реальных задач с этих соревнований соответствует порогу, необходимому для получения золотой медали.
SU-01 достигла именно этого — на IMO 2025, USAMO 2026 и IPhO 2024/2025.
«Компактная» модель с 30 млрд параметров
Примечательно, что основа (backbone) SU-01 содержит всего 30 млрд параметров (из них активны 3 млрд — типичная архитектура MoE). Это не гигантская модель с сотнями миллиардов параметров.
Это отправляет важный сигнал: в задачах логического вывода методы обучения и качество данных, возможно, важнее, чем просто масштаб параметров.
Рецепт обучения: три этапа
Основной вклад статьи — «простой и единый рецепт» (simple and unified recipe), состоящий из трёх этапов:
Этап первый: SFT-обучение по обратной перплексии
Традиционный подход к SFT (обучению с учителем) заключается в том, чтобы заставить модель воспроизводить «правильный ответ». Однако SU-01 применяет иную стратегию — курс обучения по обратной перплексии (reverse-perplexity curriculum).
Интуитивная идея такова: для сложных доказательств модель должна учиться «рассуждать от заключения к посылкам», а не просто имитировать прямой ход рассуждений. Такой подход формирует у модели строгие навыки поиска доказательств и самопроверки.
Этап второй: двухэтапное обучение с подкреплением (RL)
- Этап один: RL с объективно верифицируемым вознаграждением. В качестве сигнала вознаграждения используется объективно проверяемый результат (например, правильность окончательного ответа на математической задаче).
- Этап два: RL на уровне строгих доказательств. Более тонкий механизм вознаграждения, который оценивает не только окончательный ответ, но и качество самого доказательства.
Постепенный переход от грубого (глобального) к тонкому (локальному) вознаграждению гарантирует, что модель получает чёткие обучающие сигналы на ранних этапах и при этом не теряет ориентиров из-за чрезмерной сложности функции вознаграждения.
Этап третий: масштабирование во время тестирования
На этапе вывода увеличивается вычислительная нагрузка (более длинная цепочка рассуждений, большее количество сэмплирований), что дополнительно повышает эффективность решения задач.
Объём обучающих данных
На этапе SFT использовано около 340 000 траекторий длиной менее 8K токенов; на этапе RL выполнено 200 шагов. Для 30-миллиардной модели такой объём данных нельзя назвать огромным, однако ключевым здесь является именно качество данных.
Сверхдлинные траектории рассуждений
SU-01 способна стабильно обрабатывать траектории рассуждений длиной более 100 000 токенов. Это означает, что при решении самых сложных олимпиадных задач модель может продолжать «думать» — генерировать и проверять промежуточные шаги, а не прекращать работу уже через несколько сотен токенов.
Такая способность к рассуждениям сверхдлинных траекторий является необходимым условием для решения задач олимпиадного уровня. Полное доказательство на уровне IMO может потребовать десятков шагов рассуждений и нескольких итераций самокоррекции.
Обобщающая способность
В статье также представлены результаты обобщающей способности модели в других научных областях, требующих логических рассуждений, помимо математики и физики. Хотя конкретные цифры здесь не приводятся, эта тенденция заслуживает внимания: метод обучения, успешно протестированный на математике и физике, потенциально может быть перенесён в другие области, где требуется строгий логический вывод.
Оценка
Значение SU-01 заключается не в какой-то отдельной технической новинке, а в интеграции воспроизводимого, сквозного процесса обучения: от SFT до RL и далее до масштабирования во время тестирования — каждый этап имеет чёткие принципы проектирования и экспериментальное обоснование.
Для команд, стремящихся создать модели логического вывода, этот технический отчёт объёмом 77 страниц скорее напоминает практическое руководство — он подробно объясняет, как выполнять каждый шаг, а не просто демонстрирует конечный результат.
Основные источники:
- arXiv:2605.13301 SU-01
- Яфу Ли, Жунчжэ Чжан, Хаоран Чжан, Шункай Чжан, Ичжуо Ли, Чжилинь Ван, Цзячэн Чэнь, Футин Ван, Сюйян Ху, Юйчэнь Фань, Банцзе Сюй, Ючэн Су, Синмяо Хань, Чэньси Ли, Хаоди Лэй, Юфэн Чжао, Цзэцзинь Линь, Цяньцзя Чэн, Тун Чжу, Сяоё Цюй, Ганцюй Цуй, Пэн Е, Юнь Ло, Чжочэнь Линь, Юй Цяо, Боуэнь Чжоу, Нин Дин, Юй Чэн и ещё 21 автор (всего 28 авторов)
- Технический отчёт, 77 страниц