LLMに自己採点させる——しかし、それは本当に信頼できるのか?
過去1年間、推論能力の向上における主流のアプローチは「より深く考える」ことだった。モデルを1つの推論パス上でより遠くまで走らせる。o1シリーズの思考チェーンや、様々なテスト時計算スケーリング手法は、本質的にこの路線にある。
しかしOpenDeepThinkはより根源的な問いを投げかける:十分に深く考えられないなら、複数の方向を考えて、その中から最好的なものを選べばよいのではないか?
答えはイエス。だが問題は——どう選ぶか?
選択のボトルネック:なぜ「最好的なものを選ぶ」のが「1つ考える」より難しいのか
50個の候補回答を並列生成するとき、最高のものを選ぶ裁判官が必要になる。
直感的には、LLMに自分で裁判官をやらせればよさそうだ。しかし論文が指摘する重要な問題は、ポイントワイズ判断はノイズが多く偏っているということ。単一の回答にスコアをつける際、LLMの基準は不安定で、表現に敏感で、表面的な流暢さに騙されやすい。
OpenDeepThinkの解決策はBradley-Terryモデル——スポーツ競技ランキングに由来する統計学的手法。回答に直接スコアをつけるのではなく、モデルにペアワイズ比較を行わせる:「AとB、どちらが優れているか?」そしてすべての比較結果をグローバルランキングに集約する。
「審査員採点」を「選手同士での試合」に置き換えるようなものだ——回答のペアごとに試合を行い、勝者がポイントを獲得、最終的に累積ポイントで順位が決まる。
進化的イテレーション
ランキングでトップ候補が選ばれた後、システムは単純にそれらを保持するだけではない。トップ75%の候補回答は「変異」される——比較過程で生成された自然言語の批評を修正指示として使用する。ボトム25%は淘汰される。
次のラウンドで、新しい候補セットが再びペアワイズ比較、ランキング、変異のサイクルに入る。
このプロセスを8回繰り返し、約27分のウォールクロック時間。結果:Gemini 3.1 ProのCodeforces Eloがベースラインから405ポイント上昇。
興味深い発見:客観的問題には有効、主観的問題では逆効果
HLE(Hard Long-Eval)マルチドメインベンチマークで、論文は注目すべきパターンを発見した:ゲインは客観的に検証可能なドメインに集中し、主観的ドメインではむしろ逆効果を示す。
これはBradley-Terry比較の中核的な依存関係を示唆している——比較自体に客観的基準が必要だ。回答に明確な「良い」と「悪い」がなければ、ペアワイズ比較はむしろノイズを導入することになる。
CF-73データセット
論文は同時に精心にキュレーションされたCodeforces評価セットをリリースした:73問の問題、それぞれが国際グランドマスターによって注釈され、ローカル評価と公式判定の一致率が99%。
推論ベンチマークに取り組む人にとって、このデータセットはほとんどの公開ベンチマークより信頼性が高い——なぜなら注釈者は実際にこれらの問題が解ける人だからだ。
クロスモデル移行
OpenDeepThinkのハイライトの一つは、パイプラインが異なる能力レベルのモデル間で再チューニングなしに移行できること。これは特定のモデルに限定されたトリックではなく、汎用的な推論フレームワークであることを意味する。
評価
OpenDeepThinkの中核的な貢献は特定の技術的ブレイクスルーではなく、思考の角度の転換にある:「より深く考える」がボトルネックにぶつかったとき、「より広く考える」+「より良く選ぶ」の方がコストパフォーマンスの高いパスかもしれない。
ポイントワイズ判断をBradley-Terry比較で置き換えるアイデアは、LLM自己評価が必要なあらゆるシナリオに示唆を与える——コード生成から論文レビュー、オプション選択から対話品質管理まで。
主要ソース:
- arXiv:2605.15177 OpenDeepThink
- Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang 他