Oxford/LLNL連鎖推論ベンチマーク：GPT単体95.7%、連鎖後は9.83%に急落

結論

オックスフォード大学とローレンスリバモア国立研究所（LLNL）は、長連鎖推論能力に関するベンチマーク研究を共同発表した。GPT 5.2をテスト対象とした研究では、単体問題におけるモデルの解決率は95.7%に達するが、同じ問題を多段階タスクとして連鎖させた場合、正確率は9.83%に急落した。

この結果は現在のAIモデルのコアボトルネックを明らかにしている：単体能力は強力だが、多段階連鎖において誤差累積がシステムレベルの失敗を引き起こす。研究チームは、これは単純な最適化で修復できる問題ではないと指摘している。

研究チームは、GPT 5.2が95.7%の正確率で独立して解決できる一連の問題を選定した。随后、これらの問題を順次完了が必要な連鎖として組織化——各ステップの出力が次のステップの入力となる。

結果：これらの高正確率の単体タスクを連鎖させたところ、全体の正確率は9.83%に低下した。ほぼ完璧な能力が多段階シナリオでほぼ完全に失效することを意味する。

正確率95.7%から9.83%への急落の根本原因は、誤差のカスケード増幅にある：

研究チームは3つの核心的原因を挙げている：

シナリオ	リスクレベル	説明
単体問答/分析	低	単体タスクの正確率は依然として非常に高い
多段階ワークフロー	高	連鎖が長いほど、全体の失敗率が高い
自律エージェント	極めて高い	エージェントは本質的に長連鎖推論であり、追加のエラー回復メカニズムが必要
科学的発見フロー	高	多段階研究フローは重要なノードで人間の介入が必要