核心的発見
「中国AIは2年遅れている」という主張は、2026年5月のデータの前では通用しなくなりました。
State of AI 2026年5月レポートが明らかにしたのは、西側テック界を沈黙させる一组のデータです:
DeepSeek V4とKimi K2.6のSWE-Bench Proスコアが、Claude Opus 4.7およびGPT-5.5と並んだ。推論コストは、後者の3分の1に過ぎない。
データ比較
| モデル | SWE-Bench Pro | FrontierSWE | 推論コスト(相対) |
|---|---|---|---|
| Claude Opus 4.7 | ~58 | ~38 | 1.0x(基準) |
| GPT-5.5 | ~58 | ~40 | 1.0x |
| DeepSeek V4 | ~57 | ~28 | 0.33x |
| Kimi K2.6 | ~56 | ~25 | 0.30x |
| Gemini 3.1 | ~57 | ~35 | 0.70x |
重要な洞察:
- SWE-Bench Proはもはや差別化要因ではない。中国のオープンソースモデルはこのベンチマークにおいて、一部の米国フロントティアモデルに追いつき、わずかに上回るケースもある
- FrontierSWEが新たな分岐点。これは長距離・多ステップの実際のエンジニアリングタスクを測定するベンチマーク。ここでClaudeとGPT-5.5は依然として中国モデルを10〜15ポイントリードしている
- コスト優位性は構造的なもの。DeepSeek V4はMoE(混合エキスパート)アーキテクチャを採用しており、アクティブパラメータが少なく、密結合モデル보다推論効率が顕著に高い
サイバー攻撃能力:4ヶ月ごとに倍増
レポートのもう一つの警告線はさらに不穏です:
フロントティアモデルのサイバー攻撃能力は4ヶ月ごとに倍増している。
AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5の両方が、英国AISIの完全な32ステップ企業ネットワーク乗っ取りシミュレーション(防御側なし)をクリアしました。これは以下を意味します:
- フロントティアAIは、人間の介入なしに、初期侵入からドメイン権限昇格までの完全な攻撃チェーンを完了できる
- この能力の成長速度は、防御ツールとセキュリティトレーニングの反復速度を遥かに上回っている
構造判断
中国モデルの突破口
DeepSeek V4とKimi K2.6のSWE-Bench Pro成績は偶然ではありません。それらの設計哲学はClaude/GPTとは異なります:
- 大規模蒸留 + オープンウェイト:より強力なモデルから知識を蒸留することで、ベンチマーク表現を急速に追いかける
- MoEアーキテクチャのコスト優位性:同じ予算でより多くのトークンを処理でき、開発者に優しい
- アジャイルな反復:DeepSeekは2026年にすでに複数回の迅速なバージョン更新を完了している
米国モデルの堀
FrontierSWEの格差は重要な事実を明らかにしています:短距離コーディング能力は収束しており、真の競争は長距離エンジニアリング能力にある。
Claude Opus 4.7とGPT-5.5は以下の面で明確な優位性を維持しています:
- クロスモジュールのアーキテクチャ理解
- 数十ステップにわたるタスクプランニング
- エラーリカバリーと自己デバッグ
アクション推奨
| あなたのシナリオ | 推奨ソリューション |
|---|---|
| 日常コーディング / 迅速なプロトタイピング | DeepSeek V4(MITライセンス、コスト極低、SWE-Bench Proパフォーマンス一流) |
| 複雑なシステムリファクタリング | Claude Opus 4.7 / GPT-5.5(FrontierSWEリード、長距離タスクでより信頼性) |
| コストに敏感なバッチタスク | Kimi K2.6(0.3xコスト、SWE-Bench Pro並み) |
| 企業セキュリティ評価 | 直ちにAI攻撃面監査を開始。サイバー攻撃能力は指数関数的に成長中 |
「遅れている」という物語は更新が必要です。真の競争は「誰がベンチマークテストをパスできるか」から「誰が現実世界の長距離エンジニアリングタスクを処理できるか」へ移行しています。