LLMの推論能力向上において、過去半年以上のメインテーマは「test-time compute scaling(テスト時計算スケーリング)」でした。つまり、推論時にモデルにより多くの時間を割らせ、より深く考えさせるということです。
主流のアプローチは、単一の推論チェーンを延長することです。考え方はシンプルで、一度で明確にできないなら、モデルにもっと長く、もっと深く考えさせればいいというものです。しかし、それに伴う問題も生じます。推論チェーンが長くなるほど、モデルは誤った方向にますます突き進みやすくなるのです。これは「推論の崩壊(Reasoning Collapse)」と呼ばれます。
OpenDeepThink(arXiv:2605.15177)は別の道を選びました:**「深さではなく広さで競争する」**のです。モデルに複数の候補推論パスを同時に生成させ、ペアワイズ比較を通じて悪いものを淘汰し、良いものを残す——まるでトーナメント戦のような仕組みです。
核心メカニズム:ペアワイズ比較 + Bradley-Terryモデルによる集約
プロセスは以下の通りです:
- N個の候補推論案を並列生成する
- LLMが審判役となり、候補案をランダムにペアワイズで比較し、自然言語のフィードバックと選好を示す
- Bradley-Terryモデルを用いて、すべてのペアワイズ比較結果を集約し、グローバルなランキングを作成する
- ランキング上位の候補を維持し、下位25%を淘汰する
- 比較プロセスで生成された自然言語のフィードバックを用いて、上位候補を「変異」させる
- 上記プロセスを繰り返し、複数回のイテレーションを行う
この設計にはいくつかの巧みな点があります:
Bradley-Terryモデルはスポーツ競技のEloレーティングシステムに由来します。絶対スコアに依存するのではなく、ペアごとの勝敗関係からグローバルなランキングを推論します。pointwise(単一項目)スコアリングには深刻なノイズとバイアスが存在するため、LLMに各案に直接スコアを付けさせるよりもはるかに信頼性が高いと言えます。
**「淘汰+変異」**の設計は進化的アルゴリズムの考え方を取り入れています。ただし、無作為な変異ではありません。変異の素材は、LLM自身が比較プロセスで生成した自然言語のフィードバックに基づきます。これはモデルに「自己批評、自己改善」を促すのと同じ効果があります。
効果:Gemini 3.1 Pro の Codeforces Elo が 405 ポイント急増
実験結果は非常に注目に値します:
- Gemini 3.1 ProのCodeforces Eloスコアがベースラインから +405ポイント 上昇
- LLMの呼び出しをわずか8ラウンド行い、所要時間は約 27分(実経過時間)
- このパイプラインは、性能が異なるモデル間で直接移植可能であり、ハイパーパラメータの再調整は不要
さらに興味深いのは、HLE(Hard LLM Evaluation)マルチドメインベンチマークでの発見です。効果の向上は客観的に検証可能な領域(数学、プログラミング)に集中しており、主観性の強い領域ではむしろパフォーマンスが低下する傾向が見られました。
この発見は非常に価値があります。test-time compute scaling が万能ではないことを示唆しているからです。客観的領域では、マルチパス検索+選別により確実に優れた答えを見つけられますが、主観的領域では「より良いもの」自体に合意がなく、マルチパスアプローチがむしろノイズを増幅する可能性があるのです。
彼らは CF-73 もオープンソース化
論文には CF-73 というデータセットが付属しています。これはCodeforcesのInternational Master(IM)によって採点された73問の問題集で、ローカル評価と公式判定との一致率は99%に達しています。これはコミュニティにとって実用的なベンチマークとなるでしょう。
私の考察
OpenDeepThinkの方向性は真剣に検討する価値があります。これは「いくつかのトリックを追加してベンチマークスコアを水増しする」といった類いの仕事ではなく、test-time compute scaling の根本的な問題に対して体系的な回答を示しています。
具体的には以下の通りです:
- 単一チェーン推論の限界は構造的なものである。どんなに長くても一本のパスに過ぎず、一度方向を誤ればすべて台無しになる
- マルチパス+選別は人間の解決方法により近い。私たちは元々複数の案を想定し、その中から最良のものを選ぶものだからだ
- Bradley-Terryによる集約は賢明な選択である。ノイズの多いLLMの判断を、統計的にロバストなランキングに変換するからだ
ただし、限界にも目を向ける必要があります。8ラウンドのイテレーション × 各ラウンドでの大量のペアワイズ比較は、計算コストが非常に高いことを意味します。Codeforcesの問題1問に27分かかるのはコンテストでは現実的ではありませんが、推論の品質が極めて重要なシナリオ(コード監査や数学的証明の補助など)では、このトレードオフは価値があるかもしれません。
注目すべき今後の方向性:比較段階でより小型のモデルによる予備選別を行い、重要なラウンドでのみ大型モデルを呼び出せば、コストを大幅に削減できる可能性があります。
主要出典: