中国オープンソースモデルがSWE-BenchでClaude/GPTに追いつく：性能は同等、コストは3分の1

核心的な結論

「中国のAIは2年遅れている」——この説は2026年5月にもはや成立しない。

State of AI May 2026レポートは深刻に過小評価されていた事実を明らかにした：DeepSeek V4やKimi K2.6などの中国オープンソースモデルは、SWE-Bench ProでClaude Opus 4.7やGPT-5.5のスコアに並び、APIコストは後者の3分の1に過ぎない。 これは「接近」ではなく「並走」だ。さらに重要なのは、フロンティアモデルのサイバー攻撃能力が4ヶ月ごとに倍増している中、中国モデルの追撃速度は遅れていないということだ。

SWE-Bench Pro スコア比較

モデル	SWE-Bench Pro	APIコスト（相対値）	オープン状態
Claude Opus 4.7	ベースライン	1.0x	クローズド
GPT-5.5	ベースライン	1.0x	クローズド
DeepSeek V4	≈ ベースライン	~0.33x	オープンソース
Kimi K2.6	≈ ベースライン	~0.33x	オープンウェイト
Gemini 3.1 Pro	ベースラインに近い	0.8x	クローズド
Grok 4.3	やや低い	0.4x	クローズド

注：SWE-Bench Proは、AIが実際のGitHubリポジトリでissueを修正する能力を測定するもので、現在最も実用的価値の高いプログラミングベンチマークだ。

なぜこの追撃が重要なのか

1. コスト優位性は構造的なもの

中国モデルのコスト優位性は一時的な価格戦争ではない——以下の理由による：

MoEアーキテクチャの成熟：DeepSeek V4とKimi K2.6は両方ともMoE（Mixture of Experts）を採用しており、アクティブ化されたパラメータ数は総パラメータ数を大幅に下回る
国産コンピューティングへの適応：DeepSeekと華為昇騰との深い協力により推論コストが削減されている
エンジニアリング最適化：中国モデルは一般的に米国の同業者よりもトークン効率に優れている

2. オープンソース vs クローズドソースのパラダイム差異

次元	中国オープンソース	米国クローズドソース
監査可能性	完全に監査可能	ブラックボックス
ローカルデプロイ	サポート	サポートなし
カスタムファインチューニング	自由にファインチューニング可能	制限あり
サプライチェーンセキュリティ	自己制御	米国サプライヤーに依存
コミュニティエコシステム	急速に成長中	クローズド

3. 追撃速度は加速している

フロンティアモデルの能力は4ヶ月ごとに倍増し、中国モデルの追撃速度は遅れていない。DeepSeek V3からV4への飛躍は6ヶ月未満で完了し、KimiのK2.5からK2.6へのイテレーションも同様に迅速だった。

市場分析

米国モデルへの影響

中国オープンソースモデルの追撃は米国モデルの価格スペースを圧縮している。DeepSeek V4はすでにSOTAモデルの中で最も安く（Opus 4.7のコストの1/20）、Kimi K2.6や他の中国モデルも価格戦争に加われば、「高性能 + 低コスト」が中国モデルの新しいラベルになる可能性がある。

企業意思決定者にとっての意味

シナリオ	推奨ソリューション	理由
コード修正 / Agentプログラミング	DeepSeek V4 / Kimi K2.6	性能は同等、コストは1/3、ローカルデプロイ可能
クリエイティブライティング / マルチモーダル	Claude / GPT	まだ優位性あり
機密データシナリオ	DeepSeek / Kimi ローカルデプロイ	データが国外に出ない
大規模API呼び出し	DeepSeek V4	コストパフォーマンスが支配的

行動のアドバイス

CTO/技術意思決定者：コーディングおよびAgentシナリオでDeepSeek V4とKimi K2.6のテストを優先——コスト節約は著しい可能性がある
AIエンジニア：中国オープンソースモデルのファインチューニング可能性は、垂直シナリオに対して深層最適化が可能であることを意味する——これはクローズドソースモデルにはできない
投資家：中国AIモデル企業の海外展開機会に注目——「コスパSOTA」は強力なグローバルナラティブだ