OpenDeepThink: Замена «оценки» на «голосование» повышает уровень Gemini в Codeforces на 405 баллов

Пусть ЯИМ сама оценивает себя — но можно ли ей доверять?

Повышение способности к логическим рассуждениям в течение последнего года в основном шло по пути «более глубокого размышления» — то есть удлинения одной цепочки рассуждений. Серия моделей o1, различные методы масштабирования вычислений во время оценки (test-time compute scaling) — всё это, по сути, реализует именно эту стратегию.

Однако OpenDeepThink задаёт более простой вопрос: если вы не можете «углубиться», можно ли вместо этого «расшириться» — сгенерировать несколько вариантов решения и выбрать лучший?

Ответ — да. Но возникает следующий вопрос: как именно выбрать?

Узкое место выбора: почему «выбрать лучшее» сложнее, чем «сгенерировать одно»

Когда вы порождаете 50 кандидатов-ответов, вам нужен судья, который определит лучший из них.

На первый взгляд кажется естественным поручить эту роль самой ЯИМ. Однако в статье указывается ключевая проблема: точечная оценка (pointwise judging) противоречива и предвзята. При выставлении оценки одному ответу в отрыве от других стандарты ЯИМ нестабильны, чувствительны к формулировке и легко вводятся в заблуждение внешней гладкостью текста.

Решение OpenDeepThink — использовать модель Брэдли–Терри, статистический метод, изначально применявшийся для ранжирования спортсменов и команд. Вместо прямой числовой оценки каждому ответу модель последовательно сравнивает пары: «Какой из двух ответов — A или B — лучше?». Затем все полученные попарные сравнения объединяются в единую глобальную ранжировку.

Это похоже на замену «судейской оценки» на «поединок участников»: каждая пара ответов «сражается», победитель получает очко, а финальный рейтинг строится по сумме набранных очков.

Эволюционная итерация

После ранжирования и отбора лучших кандидатов система не просто сохраняет их «как есть». Верхние 75 % кандидатов подвергаются «мутации» — их корректируют с использованием естественноязыковых замечаний, сгенерированных непосредственно в ходе попарных сравнений. Нижние 25 % удаляются безвозвратно.

На следующем этапе новое множество кандидатов снова проходит цикл попарных сравнений → ранжирования → мутации.

Весь процесс повторяется 8 раз и занимает около 27 минут реального времени. Результат: Elo-рейтинг Gemini 3.1 Pro в Codeforces возрастает на 405 пунктов относительно базового уровня.

Любопытное наблюдение: эффективность на объективных задачах и обратный эффект на субъективных

В статье приводится тревожная закономерность, обнаруженная на многопрофильном бенчмарке HLE (Hard Long-Eval): прирост качества сосредоточен исключительно в объективно верифицируемых областях, тогда как в субъективных — наблюдается даже обратный эффект.

Это говорит о фундаментальной зависимости подхода на основе модели Брэдли–Терри: само сравнение требует объективного критерия «лучше/хуже». Если для ответов нет чёткого, однозначного критерия качества, попарное сравнение лишь добавляет шум.

Набор данных CF-73

Статья также представляет тщательно составленный набор задач Codeforces — CF-73: 73 задачи, каждая из которых промаркирована международными гроссмейстерами (International Grandmaster). Согласованность локальных оценок с официальными решениями достигает 99 %.

Для исследователей, работающих с бенчмаркми логических рассуждений, этот набор надёжнее большинства публичных бенчмарков — ведь его создателями являются те, кто реально решает такие задачи.

Переносимость между моделями

Один из ключевых преимуществ OpenDeepThink — переносимость конвейера (pipeline) между моделями различной мощности без необходимости повторной настройки гиперпараметров. Это означает, что метод не является «хаком», привязанным к конкретной модели, а представляет собой универсальную архитектуру рассуждений.

Оценка

Основной вклад OpenDeepThink заключается не в конкретном техническом прорыве, а в смене парадигмы мышления: когда путь «думать глубже» сталкивается с пределом эффективности, стратегия «думать шире» + «выбирать точнее» может оказаться более экономичной и результативной.

Идея замены точечной оценки на попарное сравнение по модели Брэдли–Терри имеет широкую применимость в любых сценариях, где ЯИМ должна проводить самооценку: от генерации кода и рецензирования научных статей до выбора решений и контроля качества диалогов.

Основные источники:

arXiv:2605.15177 OpenDeepThink
Шан Чжоу, Вэньхао Чай, Кайюнь Лю, Хуанчжи Мао, Цюйян Ман, Цзинбо Шан и др.

Пусть ЯИМ сама оценивает себя — но можно ли ей доверять?

Узкое место выбора: почему «выбрать лучшее» сложнее, чем «сгенерировать одно»

Эволюционная итерация

Любопытное наблюдение: эффективность на объективных задачах и обратный эффект на субъективных

Набор данных CF-73

Переносимость между моделями

Оценка

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов