State of AI 2026年5月報告：中国オープンソースモデルがSWE-Bench ProでGPT-5.5/Claudeに追平、コストは3分の1

核心結論

最新のState of AI月次レポート（2026年5月）が、シリコンバレーのエンジニアを座っていられなくさせるデータを突きつけた。DeepSeek V4とKimi K2.6がSWE-Bench ProでGPT-5.5およびClaude Opus 4.7に並ぶ性能を示し、100万トークンあたりのAPIコストは約3分の1に過ぎない。

これはもはや「コスパ」の話ではない。「性能同等、価格圧倒」というシグナルだ。

データ比較

モデル	SWE-Bench Pro	入力価格 ($/M tokens)	出力価格 ($/M tokens)	アーキテクチャ
GPT-5.5	67.2%	$10.00	$40.00	Dense MoE
Claude Opus 4.7	66.8%	$15.00	$75.00	Dense MoE
DeepSeek V4	67.0%	$2.50	$8.00	MoE（アクティブ32B）
Kimi K2.6	66.5%	$3.00	$10.00	MoE（アクティブ32B、合計1T）

重要ポイント：

SWE-Bench Pro は現在最も厳格なコーディングベンチマークで、複数言語・複数リポジトリにわたる実際のissue修正タスクをカバーする
DeepSeek V4とKimi K2.6はいずれもMoE（混合エキスパート）アーキテクチャを採用し、推論時にはトークンあたり約320億パラメータのみをアクティブにする
価格データは各モデルの公式API料金に基づく（2026年5月時点）

なぜこのシグナルがベンチマークスコアより重要なのか

過去2年間、AI界の議論は「誰が賢いか」を中心に回ってきた。このレポートが示唆するのは、より根本的なトレンドだ。知能は希少資源からインフラへ移行しつつある。

いくつかの相互検証されたシグナル：

最先端モデルのサイバー攻撃能力が4ヶ月ごとに倍増（英国AISIデータ）。モデル能力の進化速度が価格調整速度を大幅に上回っている
中国ラボはSWE-Bench Multilingualでもリード — Kimi K2.6は多言語コーディングタスクでClaude Sonnet 4.6を上回る
オープンウェイトモデルがクローズドソースモデルとのギャップを縮めている — Kimi K2.6のウェイトは公開済み、DeepSeek V4のウェイトもオープンソース

市場分析

このトレンドは、異なる役割の人々にとって異なる意味を持つ：

役割	シグナル	アクション
個人開発者	コーディングAgentのコスト障壁が月5ドルに低下	VPS上にOllama + Hermes Agentをデプロイし、ローカルでコーディングタスクを実行
企業CTO	中国オープンソースモデルの性能/コスト比は無視できなくなっている	内部ツールチェーンでDeepSeek/KimiをGPT-5.5のフォールバックとして導入
モデルベンダー	クローズドソースのプレミアム窗口が狭まっている	Agentワークフロー、マルチモーダル、エンタープライズセキュリティで新たな防衛線を構築する必要あり

不確実性の注意点

SWE-Bench Proは厳格だが、あくまでベンチマークに過ぎない。実際のプロジェクトでのパフォーマンスは、コードベースの複雑さやコンテキスト長の要件によって異なる可能性がある
中国モデルのエコシステムツール（IDE統合、MCPサーバー、プラグイン）は依然として追いつきつつある段階
米国の対中AI輸出規制がモデルのグローバルアクセシビリティに影響を与える可能性がある

一言でまとめると：DeepSeek V4とKimi K2.6がGPT-5.5とコーディング能力で並ぶ一方で価格は3分の1となった今、「どのモデルを選ぶか」という問いは「誰が賢いか」から「谁がコスパ良いか」へ移行しつつある。

核心結論

データ比較

なぜこのシグナルがベンチマークスコアより重要なのか

市場分析

不確実性の注意点

関連コンテンツ

17日間で4モデル：中国オープンソースAIの「軍拡競争」と性能格局の組み替え

Hermes Agent vs OpenClaw：2026年 AI Agent フレームワークはどう選ぶ？

Codexのダウンロード数がClaude Codeを圧勝：OpenAIの「Migrate to Codex」エコシステム獲得戦