OpenDeepThink：投票で「判断」を代替し、GeminiのCodeforces Eloを405ポイント上昇させる

LLMに自己採点させる——しかし、それは本当に信頼できるのか？

過去1年間、推論能力の向上における主流のアプローチは「より深く考える」ことだった。モデルを1つの推論パス上でより遠くまで走らせる。o1シリーズの思考チェーンや、様々なテスト時計算スケーリング手法は、本質的にこの路線にある。

しかしOpenDeepThinkはより根源的な問いを投げかける：十分に深く考えられないなら、複数の方向を考えて、その中から最好的なものを選べばよいのではないか？

答えはイエス。だが問題は——どう選ぶか？

50個の候補回答を並列生成するとき、最高のものを選ぶ裁判官が必要になる。

直感的には、LLMに自分で裁判官をやらせればよさそうだ。しかし論文が指摘する重要な問題は、ポイントワイズ判断はノイズが多く偏っているということ。単一の回答にスコアをつける際、LLMの基準は不安定で、表現に敏感で、表面的な流暢さに騙されやすい。

OpenDeepThinkの解決策はBradley-Terryモデル——スポーツ競技ランキングに由来する統計学的手法。回答に直接スコアをつけるのではなく、モデルにペアワイズ比較を行わせる：「AとB、どちらが優れているか？」そしてすべての比較結果をグローバルランキングに集約する。

「審査員採点」を「選手同士での試合」に置き換えるようなものだ——回答のペアごとに試合を行い、勝者がポイントを獲得、最終的に累積ポイントで順位が決まる。

ランキングでトップ候補が選ばれた後、システムは単純にそれらを保持するだけではない。トップ75%の候補回答は「変異」される——比較過程で生成された自然言語の批評を修正指示として使用する。ボトム25%は淘汰される。

次のラウンドで、新しい候補セットが再びペアワイズ比較、ランキング、変異のサイクルに入る。

このプロセスを8回繰り返し、約27分のウォールクロック時間。結果：Gemini 3.1 ProのCodeforces Eloがベースラインから405ポイント上昇。

HLE（Hard Long-Eval）マルチドメインベンチマークで、論文は注目すべきパターンを発見した：ゲインは客観的に検証可能なドメインに集中し、主観的ドメインではむしろ逆効果を示す。

これはBradley-Terry比較の中核的な依存関係を示唆している——比較自体に客観的基準が必要だ。回答に明確な「良い」と「悪い」がなければ、ペアワイズ比較はむしろノイズを導入することになる。

論文は同時に精心にキュレーションされたCodeforces評価セットをリリースした：73問の問題、それぞれが国際グランドマスターによって注釈され、ローカル評価と公式判定の一致率が99%。

推論ベンチマークに取り組む人にとって、このデータセットはほとんどの公開ベンチマークより信頼性が高い——なぜなら注釈者は実際にこれらの問題が解ける人だからだ。

OpenDeepThinkのハイライトの一つは、パイプラインが異なる能力レベルのモデル間で再チューニングなしに移行できること。これは特定のモデルに限定されたトリックではなく、汎用的な推論フレームワークであることを意味する。

OpenDeepThinkの中核的な貢献は特定の技術的ブレイクスルーではなく、思考の角度の転換にある：「より深く考える」がボトルネックにぶつかったとき、「より広く考える」＋「より良く選ぶ」の方がコストパフォーマンスの高いパスかもしれない。

ポイントワイズ判断をBradley-Terry比較で置き換えるアイデアは、LLM自己評価が必要なあらゆるシナリオに示唆を与える——コード生成から論文レビュー、オプション選択から対話品質管理まで。

主要ソース：