OpenDeepThink: вместо «зацикливания» на одной цепи рассуждений — «турнир на вылет», где LLM сам находит правильный ответ

Повышение способности LLM к рассуждению в последние полгода определялось трендом под названием test-time compute scaling — то есть выделением модели большего времени на обдумывание, позволяющим углубиться в процесс вывода.

Основной подход заключается в удлинении единственной цепи рассуждений. Идея проста: если модель не может разобраться сразу, пусть думает дольше и глубже. Однако с этим приходит проблема: чем длиннее цепь, тем выше вероятность, что модель уйдёт всё дальше в неверном направлении — это явление называют «коллапсом рассуждений» (reasoning collapse).

OpenDeepThink (arXiv:2605.15177) пошла другим путём: не углубляться в одну ветку, а расширять горизонт поиска. Модель генерирует несколько кандидатских путей рассуждений одновременно, а затем методом попарного сравнения отсеивает слабые варианты, сохраняя лучшие — по аналогии с турниром на вылет.

Ключевой механизм: попарное сравнение (pairwise) и агрегация по Брэдли-Терри

Процесс выглядит следующим образом:

Параллельная генерация N кандидатских путей рассуждения.
LLM выступает в роли судьи, случайно сравнивая варианты попарно и выдавая текстовые комментарии и предпочтения на естественном языке.
С помощью модели Брэдли-Терри все результаты попарных сравнений агрегируются в глобальный рейтинг.
Кандидаты с высоким рейтингом сохраняются, а нижние 25% отсеиваются.
Текстовые комментарии, полученные в процессе сравнения, используются для «мутации» лучших кандидатов.
Процесс повторяется в несколько итераций.

В этой конструкции есть несколько изящных моментов:

Модель Брэдли-Терри берёт своё начало из системы рейтинга Elo в спорте: она не опирается на абсолютные баллы, а выводит глобальный рейтинг на основе результатов попарных «побед и поражений». Это гораздо надёжнее, чем просить LLM выставить оценку каждому варианту напрямую, поскольку точечные (pointwise) оценки сильно подвержены шуму и систематическим смещениям.

Принцип «отсев + мутация» заимствован из эволюционных алгоритмов. Однако мутация не случайна: материалом для неё служат текстовые комментарии, которые LLM генерирует самостоятельно в процессе сравнения. По сути, это позволяет модели «критиковать и улучшать себя».

Результаты: Gemini 3.1 Pro взлетает на 405 пунктов Elo в Codeforces

Экспериментальные результаты весьма впечатляют:

Рейтинг Codeforces Elo у Gemini 3.1 Pro вырос +405 пунктов относительно базового уровня.
Для этого потребовалось всего 8 циклов вызовов LLM, а общее время составило около 27 минут (wall-clock time).
Данный пайплайн легко переносится между моделями разной мощности без необходимости повторной настройки параметров.

Не менее интересно их наблюдение на мультидоменном бенчмарке HLE (Hard LLM Evaluation): улучшения сосредоточены в объективно проверяемых областях (математика, программирование), тогда как в задачах с высокой долей субъективности эффективность, наоборот, снижается.

Это важное наблюдение — оно указывает на то, что test-time compute scaling не является панацеей. В объективных задачах многовариантный поиск с фильтрацией действительно находит лучшие решения; но в субъективных областях само понятие «лучшего» не имеет консенсуса, и множественные пути могут лишь добавить шума.

Они также открыли датасет CF-73

К статье прилагается датасет CF-73: 73 задачи с Codeforces, аннотированные международными мастерами. Согласованность локальной оценки с официальными результатами достигает 99%. Это практичный бенчмарк для сообщества.

Моё мнение

Направление OpenDeepThink заслуживает серьёзного внимания. Это не просто работа из серии «добавить пару трюков, чтобы улучшить показатели на бенчмарках», а системный ответ на фундаментальные проблемы test-time compute scaling.

Если говорить конкретно:

Ограничения одноцепочечного рассуждения носят структурный характер — какая бы длинной ни была цепь, это всё равно единственный путь, и если он ошибочен, результат потерян.
Многовариантность + фильтрация ближе к человеческому способу решения задач — мы инстинктивно продумываем несколько вариантов и выбираем лучший.
Агрегация по Брэдли-Терри — умное решение: она превращает зашумлённые оценки LLM в статистически устойчивый рейтинг.

Тем не менее, нельзя игнорировать ограничения: 8 итераций × множество попарных сравнений на каждом шаге означают очень высокие вычислительные затраты. Тратить 27 минут на решение одной задачи Codeforces непрактично для соревнований, но в сценариях с экстремально высокими требованиями к качеству рассуждений (например, аудит кода, помощь в математических доказательствах) такой trade-off может быть оправдан.

Перспективное направление для дальнейших исследований: если на этапе сравнения использовать более лёгкие модели для первоначального отсева, а большие модели вызывать только на ключевых этапах, затраты могут существенно сократиться.

Основной источник:

arXiv:2605.15177 - OpenDeepThink

Ключевой механизм: попарное сравнение (pairwise) и агрегация по Брэдли-Терри

Результаты: Gemini 3.1 Pro взлетает на 405 пунктов Elo в Codeforces

Они также открыли датасет CF-73

Моё мнение

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов