State of AI 2026年5月：DeepSeek V4、Kimi K2.6がSWE-Bench ProでClaude/GPT-5.5に追平、コストは3分の1

核心的発見

「中国AIは2年遅れている」という主張は、2026年5月のデータの前では通用しなくなりました。

State of AI 2026年5月レポートが明らかにしたのは、西側テック界を沈黙させる一组のデータです：

DeepSeek V4とKimi K2.6のSWE-Bench Proスコアが、Claude Opus 4.7およびGPT-5.5と並んだ。推論コストは、後者の3分の1に過ぎない。

モデル	SWE-Bench Pro	FrontierSWE	推論コスト（相対）
Claude Opus 4.7	~58	~38	1.0x（基準）
GPT-5.5	~58	~40	1.0x
DeepSeek V4	~57	~28	0.33x
Kimi K2.6	~56	~25	0.30x
Gemini 3.1	~57	~35	0.70x

重要な洞察：

SWE-Bench Proはもはや差別化要因ではない。中国のオープンソースモデルはこのベンチマークにおいて、一部の米国フロントティアモデルに追いつき、わずかに上回るケースもある
FrontierSWEが新たな分岐点。これは長距離・多ステップの実際のエンジニアリングタスクを測定するベンチマーク。ここでClaudeとGPT-5.5は依然として中国モデルを10〜15ポイントリードしている
コスト優位性は構造的なもの。DeepSeek V4はMoE（混合エキスパート）アーキテクチャを採用しており、アクティブパラメータが少なく、密結合モデル보다推論効率が顕著に高い

レポートのもう一つの警告線はさらに不穏です：

フロントティアモデルのサイバー攻撃能力は4ヶ月ごとに倍増している。

AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5の両方が、英国AISIの完全な32ステップ企業ネットワーク乗っ取りシミュレーション（防御側なし）をクリアしました。これは以下を意味します：

DeepSeek V4とKimi K2.6のSWE-Bench Pro成績は偶然ではありません。それらの設計哲学はClaude/GPTとは異なります：

FrontierSWEの格差は重要な事実を明らかにしています：短距離コーディング能力は収束しており、真の競争は長距離エンジニアリング能力にある。

Claude Opus 4.7とGPT-5.5は以下の面で明確な優位性を維持しています：

あなたのシナリオ	推奨ソリューション
日常コーディング / 迅速なプロトタイピング	DeepSeek V4（MITライセンス、コスト極低、SWE-Bench Proパフォーマンス一流）
複雑なシステムリファクタリング	Claude Opus 4.7 / GPT-5.5（FrontierSWEリード、長距離タスクでより信頼性）
コストに敏感なバッチタスク	Kimi K2.6（0.3xコスト、SWE-Bench Pro並み）
企業セキュリティ評価	直ちにAI攻撃面監査を開始。サイバー攻撃能力は指数関数的に成長中

「遅れている」という物語は更新が必要です。真の競争は「誰がベンチマークテストをパスできるか」から「誰が現実世界の長距離エンジニアリングタスクを処理できるか」へ移行しています。