CAISIレポート：DeepSeek V4Proベンチマークは悪くないが、実戦で米国最先端モデルに8ヶ月遅れ

CAISI（米国公式AI評価基準機関）が報告書を発表した。核心結論は率直だ：DeepSeek V4Proは去年8月にリリースされたGPT-5に相当し、米国最先端モデルから約8ヶ月遅れている。

パラメータは悪くない。ベンチマークも悪くない。では格差はどこから来るのか？

報告書の答えは明確だ：実戦。

ベンチマークと実戦の溝

CAISIのロジックは難しくない。ベンチマークは標準化されている — 問題と採点基準は公開されている。DeepSeek V4ProのMMLU、GSM8K、SWE-benchのスコアは確かにGPT-5と正面から戦える。

だがベンチマークは実戦ではない。実戦シナリオにはベンチマークテストが測定できない次元がある：

ツール呼び出しの安定性。実際のエージェントワークフローでは、モデルが複数のAPIを連続的に呼び出し、エラーを処理し、リトライし、フォールバックする必要がある。ベンチマークは通常、単一ラウンドの呼び出し精度のみをテストし、長連鎖の安定性は測らない。

コンテキスト活用率。モデルに128Kのコンテキストウィンドウを与え、128Kのコンテキスト内で効果的に鍵情報を抽出させるのは別物だ。CAISIは実際の文書処理タスクにおいて、DeepSeek V4Proの長コンテキスト情報検索効率が同時期のGPT-5より低いことを発見した。

マルチターン会話の一貫性。20ラウンド以上の複雑な会話において、DeepSeek V4Proは前後の矛盾や早期情報の忘却が起こりやすい。

これらの格差はベンチマークでは見えないが、実際の使用でははっきりわかる。

CAISIは正確な数式を示さなかった。しかし、説明から判断すると、DeepSeek V4Proの能力を米国モデルのタイムラインにマッピングしている — つまり、DeepSeek V4Proの現在の総合力は、GPT-5が2025年8月リリース時のレベルに相当する。

このベンチマークにはいくつかの前提仮定がある：

これらの仮定には議論の余地がある。しかし、政府機関の評価フレームワークとして、少なくとも議論可能なベースラインを提供している。

正直に言うと、偏った部分もあれば合理的な部分もある。

合理的な部分：実戦格差は確かに存在する。DeepSeekの優位性は主にコスト — API価格は米国モデルの数分の一。しかし実際の可用性が劣るなら、安さの意義も小さくなる。

偏った部分：CAISIの評価フレームワークは自然と米国モデルエコシステムに偏っている。評価タスクの設計、ツール呼び出しインターフェースの定義、プロンプトの言語スタイルまで、すべて米国モデルのインタラクション慣習を基準にしている。別の評価フレームワークなら結果も違うかもしれない。

さらに、「8ヶ月」は瞬間的なスナップショットだ。DeepSeekのイテレーション速度は速い — V4Proが今後数ヶ月でツール呼び出しと長コンテキスト能力を継続的に最適化すれば、この格差は縮小している可能性がある。

中国コミュニティの反応は分かれている。一部はCAISIの結論は客観的だと考える — ベンチマークは確かにすべてを代表するわけではなく、実戦格差は直視する必要がある。別の一部は「米国機関が米国モデルに採点している」もので、信頼性に限りがあると考える。

英語コミュニティは一般的に、報告書が彼らの直感を裏付けたと考えている：DeepSeekはコストパフォーマンスが高いが、プロダクション環境の安定性ではまだ追いつく必要がある。

この報告書の最大の価値は「8ヶ月」という数字自体ではなく、多くの人が見過ごしている問題を指摘したことにある：ベンチマークと実戦の間の格差が拡大している。

エージェントワークフローがますます複雑になるにつれて、単一のベンチマークスコアが説明できることは越来越少になる。モデルはツール呼び出し、長コンテキスト、マルチターン一貫性、エラーリカバリーなどの複数の次元で同時に合格しないと、プロダクションで本当に使えるようにならない。

DeepSeekがプロダクション環境で米国最先端モデルと正面から競争したいなら、次の最適化ターゲットはベンチマークではなく、「ベンチマークは測れないがユーザーは感じられる」これらの能力だ。

主な情報源：