核心結論
最新のState of AI月次レポート(2026年5月)が、シリコンバレーのエンジニアを座っていられなくさせるデータを突きつけた。DeepSeek V4とKimi K2.6がSWE-Bench ProでGPT-5.5およびClaude Opus 4.7に並ぶ性能を示し、100万トークンあたりのAPIコストは約3分の1に過ぎない。
これはもはや「コスパ」の話ではない。「性能同等、価格圧倒」というシグナルだ。
データ比較
| モデル | SWE-Bench Pro | 入力価格 ($/M tokens) | 出力価格 ($/M tokens) | アーキテクチャ |
|---|---|---|---|---|
| GPT-5.5 | 67.2% | $10.00 | $40.00 | Dense MoE |
| Claude Opus 4.7 | 66.8% | $15.00 | $75.00 | Dense MoE |
| DeepSeek V4 | 67.0% | $2.50 | $8.00 | MoE(アクティブ32B) |
| Kimi K2.6 | 66.5% | $3.00 | $10.00 | MoE(アクティブ32B、合計1T) |
重要ポイント:
- SWE-Bench Pro は現在最も厳格なコーディングベンチマークで、複数言語・複数リポジトリにわたる実際のissue修正タスクをカバーする
- DeepSeek V4とKimi K2.6はいずれもMoE(混合エキスパート)アーキテクチャを採用し、推論時にはトークンあたり約320億パラメータのみをアクティブにする
- 価格データは各モデルの公式API料金に基づく(2026年5月時点)
なぜこのシグナルがベンチマークスコアより重要なのか
過去2年間、AI界の議論は「誰が賢いか」を中心に回ってきた。このレポートが示唆するのは、より根本的なトレンドだ。知能は希少資源からインフラへ移行しつつある。
いくつかの相互検証されたシグナル:
- 最先端モデルのサイバー攻撃能力が4ヶ月ごとに倍増(英国AISIデータ)。モデル能力の進化速度が価格調整速度を大幅に上回っている
- 中国ラボはSWE-Bench Multilingualでもリード — Kimi K2.6は多言語コーディングタスクでClaude Sonnet 4.6を上回る
- オープンウェイトモデルがクローズドソースモデルとのギャップを縮めている — Kimi K2.6のウェイトは公開済み、DeepSeek V4のウェイトもオープンソース
市場分析
このトレンドは、異なる役割の人々にとって異なる意味を持つ:
| 役割 | シグナル | アクション |
|---|---|---|
| 個人開発者 | コーディングAgentのコスト障壁が月5ドルに低下 | VPS上にOllama + Hermes Agentをデプロイし、ローカルでコーディングタスクを実行 |
| 企業CTO | 中国オープンソースモデルの性能/コスト比は無視できなくなっている | 内部ツールチェーンでDeepSeek/KimiをGPT-5.5のフォールバックとして導入 |
| モデルベンダー | クローズドソースのプレミアム窗口が狭まっている | Agentワークフロー、マルチモーダル、エンタープライズセキュリティで新たな防衛線を構築する必要あり |
不確実性の注意点
- SWE-Bench Proは厳格だが、あくまでベンチマークに過ぎない。実際のプロジェクトでのパフォーマンスは、コードベースの複雑さやコンテキスト長の要件によって異なる可能性がある
- 中国モデルのエコシステムツール(IDE統合、MCPサーバー、プラグイン)は依然として追いつきつつある段階
- 米国の対中AI輸出規制がモデルのグローバルアクセシビリティに影響を与える可能性がある
一言でまとめると:DeepSeek V4とKimi K2.6がGPT-5.5とコーディング能力で並ぶ一方で価格は3分の1となった今、「どのモデルを選ぶか」という問いは「誰が賢いか」から「谁がコスパ良いか」へ移行しつつある。