C
ChaoBro

State of AI 2026年5月:DeepSeek V4、Kimi K2.6がSWE-Bench ProでClaude/GPT-5.5に追平、コストは3分の1

State of AI 2026年5月:DeepSeek V4、Kimi K2.6がSWE-Bench ProでClaude/GPT-5.5に追平、コストは3分の1

核心的発見

「中国AIは2年遅れている」という主張は、2026年5月のデータの前では通用しなくなりました。

State of AI 2026年5月レポートが明らかにしたのは、西側テック界を沈黙させる一组のデータです:

DeepSeek V4とKimi K2.6のSWE-Bench Proスコアが、Claude Opus 4.7およびGPT-5.5と並んだ。推論コストは、後者の3分の1に過ぎない。

データ比較

モデルSWE-Bench ProFrontierSWE推論コスト(相対)
Claude Opus 4.7~58~381.0x(基準)
GPT-5.5~58~401.0x
DeepSeek V4~57~280.33x
Kimi K2.6~56~250.30x
Gemini 3.1~57~350.70x

重要な洞察:

  • SWE-Bench Proはもはや差別化要因ではない。中国のオープンソースモデルはこのベンチマークにおいて、一部の米国フロントティアモデルに追いつき、わずかに上回るケースもある
  • FrontierSWEが新たな分岐点。これは長距離・多ステップの実際のエンジニアリングタスクを測定するベンチマーク。ここでClaudeとGPT-5.5は依然として中国モデルを10〜15ポイントリードしている
  • コスト優位性は構造的なもの。DeepSeek V4はMoE(混合エキスパート)アーキテクチャを採用しており、アクティブパラメータが少なく、密結合モデル보다推論効率が顕著に高い

サイバー攻撃能力:4ヶ月ごとに倍増

レポートのもう一つの警告線はさらに不穏です:

フロントティアモデルのサイバー攻撃能力は4ヶ月ごとに倍増している

AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5の両方が、英国AISIの完全な32ステップ企業ネットワーク乗っ取りシミュレーション(防御側なし)をクリアしました。これは以下を意味します:

  • フロントティアAIは、人間の介入なしに、初期侵入からドメイン権限昇格までの完全な攻撃チェーンを完了できる
  • この能力の成長速度は、防御ツールとセキュリティトレーニングの反復速度を遥かに上回っている

構造判断

中国モデルの突破口

DeepSeek V4とKimi K2.6のSWE-Bench Pro成績は偶然ではありません。それらの設計哲学はClaude/GPTとは異なります:

  1. 大規模蒸留 + オープンウェイト:より強力なモデルから知識を蒸留することで、ベンチマーク表現を急速に追いかける
  2. MoEアーキテクチャのコスト優位性:同じ予算でより多くのトークンを処理でき、開発者に優しい
  3. アジャイルな反復:DeepSeekは2026年にすでに複数回の迅速なバージョン更新を完了している

米国モデルの堀

FrontierSWEの格差は重要な事実を明らかにしています:短距離コーディング能力は収束しており、真の競争は長距離エンジニアリング能力にある

Claude Opus 4.7とGPT-5.5は以下の面で明確な優位性を維持しています:

  • クロスモジュールのアーキテクチャ理解
  • 数十ステップにわたるタスクプランニング
  • エラーリカバリーと自己デバッグ

アクション推奨

あなたのシナリオ推奨ソリューション
日常コーディング / 迅速なプロトタイピングDeepSeek V4(MITライセンス、コスト極低、SWE-Bench Proパフォーマンス一流)
複雑なシステムリファクタリングClaude Opus 4.7 / GPT-5.5(FrontierSWEリード、長距離タスクでより信頼性)
コストに敏感なバッチタスクKimi K2.6(0.3xコスト、SWE-Bench Pro並み)
企業セキュリティ評価直ちにAI攻撃面監査を開始。サイバー攻撃能力は指数関数的に成長中

「遅れている」という物語は更新が必要です。真の競争は「誰がベンチマークテストをパスできるか」から「誰が現実世界の長距離エンジニアリングタスクを処理できるか」へ移行しています。