Повышение способности LLM к рассуждению в последние полгода определялось трендом под названием test-time compute scaling — то есть выделением модели большего времени на обдумывание, позволяющим углубиться в процесс вывода.
Основной подход заключается в удлинении единственной цепи рассуждений. Идея проста: если модель не может разобраться сразу, пусть думает дольше и глубже. Однако с этим приходит проблема: чем длиннее цепь, тем выше вероятность, что модель уйдёт всё дальше в неверном направлении — это явление называют «коллапсом рассуждений» (reasoning collapse).
OpenDeepThink (arXiv:2605.15177) пошла другим путём: не углубляться в одну ветку, а расширять горизонт поиска. Модель генерирует несколько кандидатских путей рассуждений одновременно, а затем методом попарного сравнения отсеивает слабые варианты, сохраняя лучшие — по аналогии с турниром на вылет.
Ключевой механизм: попарное сравнение (pairwise) и агрегация по Брэдли-Терри
Процесс выглядит следующим образом:
- Параллельная генерация N кандидатских путей рассуждения.
- LLM выступает в роли судьи, случайно сравнивая варианты попарно и выдавая текстовые комментарии и предпочтения на естественном языке.
- С помощью модели Брэдли-Терри все результаты попарных сравнений агрегируются в глобальный рейтинг.
- Кандидаты с высоким рейтингом сохраняются, а нижние 25% отсеиваются.
- Текстовые комментарии, полученные в процессе сравнения, используются для «мутации» лучших кандидатов.
- Процесс повторяется в несколько итераций.
В этой конструкции есть несколько изящных моментов:
Модель Брэдли-Терри берёт своё начало из системы рейтинга Elo в спорте: она не опирается на абсолютные баллы, а выводит глобальный рейтинг на основе результатов попарных «побед и поражений». Это гораздо надёжнее, чем просить LLM выставить оценку каждому варианту напрямую, поскольку точечные (pointwise) оценки сильно подвержены шуму и систематическим смещениям.
Принцип «отсев + мутация» заимствован из эволюционных алгоритмов. Однако мутация не случайна: материалом для неё служат текстовые комментарии, которые LLM генерирует самостоятельно в процессе сравнения. По сути, это позволяет модели «критиковать и улучшать себя».
Результаты: Gemini 3.1 Pro взлетает на 405 пунктов Elo в Codeforces
Экспериментальные результаты весьма впечатляют:
- Рейтинг Codeforces Elo у Gemini 3.1 Pro вырос +405 пунктов относительно базового уровня.
- Для этого потребовалось всего 8 циклов вызовов LLM, а общее время составило около 27 минут (wall-clock time).
- Данный пайплайн легко переносится между моделями разной мощности без необходимости повторной настройки параметров.
Не менее интересно их наблюдение на мультидоменном бенчмарке HLE (Hard LLM Evaluation): улучшения сосредоточены в объективно проверяемых областях (математика, программирование), тогда как в задачах с высокой долей субъективности эффективность, наоборот, снижается.
Это важное наблюдение — оно указывает на то, что test-time compute scaling не является панацеей. В объективных задачах многовариантный поиск с фильтрацией действительно находит лучшие решения; но в субъективных областях само понятие «лучшего» не имеет консенсуса, и множественные пути могут лишь добавить шума.
Они также открыли датасет CF-73
К статье прилагается датасет CF-73: 73 задачи с Codeforces, аннотированные международными мастерами. Согласованность локальной оценки с официальными результатами достигает 99%. Это практичный бенчмарк для сообщества.
Моё мнение
Направление OpenDeepThink заслуживает серьёзного внимания. Это не просто работа из серии «добавить пару трюков, чтобы улучшить показатели на бенчмарках», а системный ответ на фундаментальные проблемы test-time compute scaling.
Если говорить конкретно:
- Ограничения одноцепочечного рассуждения носят структурный характер — какая бы длинной ни была цепь, это всё равно единственный путь, и если он ошибочен, результат потерян.
- Многовариантность + фильтрация ближе к человеческому способу решения задач — мы инстинктивно продумываем несколько вариантов и выбираем лучший.
- Агрегация по Брэдли-Терри — умное решение: она превращает зашумлённые оценки LLM в статистически устойчивый рейтинг.
Тем не менее, нельзя игнорировать ограничения: 8 итераций × множество попарных сравнений на каждом шаге означают очень высокие вычислительные затраты. Тратить 27 минут на решение одной задачи Codeforces непрактично для соревнований, но в сценариях с экстремально высокими требованиями к качеству рассуждений (например, аудит кода, помощь в математических доказательствах) такой trade-off может быть оправдан.
Перспективное направление для дальнейших исследований: если на этапе сравнения использовать более лёгкие модели для первоначального отсева, а большие модели вызывать только на ключевых этапах, затраты могут существенно сократиться.
Основной источник: