Рассуждения на уровне золотой медали олимпиады: большие модели добились этого простым масштабированием, и это тревожит

Задачи на золотую медаль Международной математической олимпиады (IMO) — это то, что даже самым умным старшеклассникам мира порой не под силу решить, даже если они выкладываются на полную.

Но сейчас статья за авторством 28 исследователей утверждает, что благодаря «простому и унифицированному масштабированию» (Simple and Unified Scaling) большие языковые модели уже стабильно достигают уровня рассуждений, достойного золотой медали. На платформе Hugging Face Daily Papers эта работа получила 140 апвоутов и 70 комментариев, став самым горячим исследованием дня.

О чём говорится в статье

Название статьи говорит само за себя: «Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling». Её ключевой тезис заключается в том, что не нужно проектировать совершенно новые архитектуры рассуждений или изобретать сложные парадигмы обучения. Достаточно систематически масштабировать существующие большие модели — по трём направлениям: объём данных, количество параметров модели и вычислительные затраты на вывод — чтобы поднять способности к математическим рассуждениям до уровня золотой медали IMO.

На первый взгляд этот вывод кажется банальным. «Законы масштабирования» (Scaling Laws) обсуждаются уже давно, ещё с работы Kaplan et al. 2020 года. Но ключевой момент в следующем: рассуждения на уровне математических олимпиад всегда считались сложнейшей задачей, требующей специальной подготовки. За последние годы сообщество перепробовало множество подходов: цепочку мыслей (CoT), процессуальное вознаграждение (Process Reward Models), формальную верификацию (с помощью Lean/Isabelle) и специализированные математические датасеты (MATH, AIME, OlympiadBench). Каждый из этих методов в своё время объявляли прорывом.

Позиция данной статьи звучит почти провокационно: все эти замысловатые приёмы, безусловно, полезны, но движущей силой в конечном счёте остаётся именно масштабирование.

Тревожный сигнал

Здесь есть важный нюанс, который нельзя упускать из виду. Статья написана крупной командой из 28 авторов, что подразумевает наличие колоссальных вычислительных ресурсов. Когда «простое масштабирование» становится оптимальной стратегией, это на самом деле означает одно: конкуренция в области математических рассуждений смещается от алгоритмических инноваций к гонке вычислительных мощностей.

Для академического сообщества это плохая новость. Небольшие команды больше не смогут догнать крупные лаборатории с помощью изящных алгоритмических решений, поскольку главным ограничением теперь становится вопрос: «достаточно ли у вас GPU?».

Но, возможно, такова реальность. Когда AlphaGo в своё время победил Ли Седоля, это тоже стало результатом грубой комбинации вычислительной мощности и данных, а не какой-либо элегантной математической теории.

Сравнение с существующими работами

Примечательно, что в то же время другие команды ведут работу в ином направлении. Проект Gemini Deep Think от Google DeepMind также занимается автоматизацией математических и научных открытий, но их подход делает акцент на режиме «глубокого мышления» — когда модели выделяется больше времени на внутренние рассуждения. Эта же статья о масштабировании предлагает ровно противоположное: она подразумевает, что не нужно заставлять модель «думать глубже», достаточно просто «увеличить её размер».

Какой из двух подходов лучше, пока сказать трудно. Но привлекательность пути масштабирования заключается в его предсказуемости: вы точно знаете, что при вложении больших ресурсов способности будут расти. А где находится потолок для маршрута «глубокого мышления», не возьмётся утверждать никто.

Мой вердикт

Ценность этой статьи не в предложении новой теории, а в том, что эмпирически она отвечает на давно дискутируемый в сообществе вопрос: где же на самом деле находится «бутылочное горлышко» математических рассуждений?

Ответ может разочаровать: дело не в алгоритмах, а в вычислительных мощностях.

Это не значит, что исследования в области алгоритмов бессмысленны. Подобно тому, как само глубокое обучение стало алгоритмическим прорывом, в будущем могут появиться новые архитектуры или методы обучения, которые кардинально изменят кривую масштабирования способностей к рассуждениям. Но как минимум на текущем этапе стратегия «чем больше, тем сильнее» по-прежнему работает.

Золотая медаль IMO больше не является недостижимой мечтой. Но цена вопроса растёт: путь к золотой медали становится всё дороже.

Основной источник:

Hugging Face Daily Papers - Achieving Gold-Medal-Level Olympiad Reasoning

О чём говорится в статье

Тревожный сигнал

Сравнение с существующими работами

Мой вердикт

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов