C
ChaoBro

State of AI 2026年5月報告:中国オープンソースモデルがSWE-Bench ProでGPT-5.5/Claudeに追平、コストは3分の1

State of AI 2026年5月報告:中国オープンソースモデルがSWE-Bench ProでGPT-5.5/Claudeに追平、コストは3分の1

核心結論

最新のState of AI月次レポート(2026年5月)が、シリコンバレーのエンジニアを座っていられなくさせるデータを突きつけた。DeepSeek V4とKimi K2.6がSWE-Bench ProでGPT-5.5およびClaude Opus 4.7に並ぶ性能を示し、100万トークンあたりのAPIコストは約3分の1に過ぎない。

これはもはや「コスパ」の話ではない。「性能同等、価格圧倒」というシグナルだ。

データ比較

モデルSWE-Bench Pro入力価格 ($/M tokens)出力価格 ($/M tokens)アーキテクチャ
GPT-5.567.2%$10.00$40.00Dense MoE
Claude Opus 4.766.8%$15.00$75.00Dense MoE
DeepSeek V467.0%$2.50$8.00MoE(アクティブ32B)
Kimi K2.666.5%$3.00$10.00MoE(アクティブ32B、合計1T)

重要ポイント:

  • SWE-Bench Pro は現在最も厳格なコーディングベンチマークで、複数言語・複数リポジトリにわたる実際のissue修正タスクをカバーする
  • DeepSeek V4とKimi K2.6はいずれもMoE(混合エキスパート)アーキテクチャを採用し、推論時にはトークンあたり約320億パラメータのみをアクティブにする
  • 価格データは各モデルの公式API料金に基づく(2026年5月時点)

なぜこのシグナルがベンチマークスコアより重要なのか

過去2年間、AI界の議論は「誰が賢いか」を中心に回ってきた。このレポートが示唆するのは、より根本的なトレンドだ。知能は希少資源からインフラへ移行しつつある。

いくつかの相互検証されたシグナル:

  1. 最先端モデルのサイバー攻撃能力が4ヶ月ごとに倍増(英国AISIデータ)。モデル能力の進化速度が価格調整速度を大幅に上回っている
  2. 中国ラボはSWE-Bench Multilingualでもリード — Kimi K2.6は多言語コーディングタスクでClaude Sonnet 4.6を上回る
  3. オープンウェイトモデルがクローズドソースモデルとのギャップを縮めている — Kimi K2.6のウェイトは公開済み、DeepSeek V4のウェイトもオープンソース

市場分析

このトレンドは、異なる役割の人々にとって異なる意味を持つ:

役割シグナルアクション
個人開発者コーディングAgentのコスト障壁が月5ドルに低下VPS上にOllama + Hermes Agentをデプロイし、ローカルでコーディングタスクを実行
企業CTO中国オープンソースモデルの性能/コスト比は無視できなくなっている内部ツールチェーンでDeepSeek/KimiをGPT-5.5のフォールバックとして導入
モデルベンダークローズドソースのプレミアム窗口が狭まっているAgentワークフロー、マルチモーダル、エンタープライズセキュリティで新たな防衛線を構築する必要あり

不確実性の注意点

  • SWE-Bench Proは厳格だが、あくまでベンチマークに過ぎない。実際のプロジェクトでのパフォーマンスは、コードベースの複雑さやコンテキスト長の要件によって異なる可能性がある
  • 中国モデルのエコシステムツール(IDE統合、MCPサーバー、プラグイン)は依然として追いつきつつある段階
  • 米国の対中AI輸出規制がモデルのグローバルアクセシビリティに影響を与える可能性がある

一言でまとめると:DeepSeek V4とKimi K2.6がGPT-5.5とコーディング能力で並ぶ一方で価格は3分の1となった今、「どのモデルを選ぶか」という問いは「誰が賢いか」から「谁がコスパ良いか」へ移行しつつある。