C
ChaoBro

中国オープンソースモデルがSWE-BenchでClaude/GPTに追いつく:性能は同等、コストは3分の1

中国オープンソースモデルがSWE-BenchでClaude/GPTに追いつく:性能は同等、コストは3分の1

核心的な結論

「中国のAIは2年遅れている」——この説は2026年5月にもはや成立しない。

State of AI May 2026レポートは深刻に過小評価されていた事実を明らかにした:DeepSeek V4やKimi K2.6などの中国オープンソースモデルは、SWE-Bench ProでClaude Opus 4.7やGPT-5.5のスコアに並び、APIコストは後者の3分の1に過ぎない。 これは「接近」ではなく「並走」だ。さらに重要なのは、フロンティアモデルのサイバー攻撃能力が4ヶ月ごとに倍増している中、中国モデルの追撃速度は遅れていないということだ。

SWE-Bench Pro スコア比較

モデルSWE-Bench ProAPIコスト(相対値)オープン状態
Claude Opus 4.7ベースライン1.0xクローズド
GPT-5.5ベースライン1.0xクローズド
DeepSeek V4≈ ベースライン~0.33xオープンソース
Kimi K2.6≈ ベースライン~0.33xオープンウェイト
Gemini 3.1 Proベースラインに近い0.8xクローズド
Grok 4.3やや低い0.4xクローズド

注:SWE-Bench Proは、AIが実際のGitHubリポジトリでissueを修正する能力を測定するもので、現在最も実用的価値の高いプログラミングベンチマークだ。

なぜこの追撃が重要なのか

1. コスト優位性は構造的なもの

中国モデルのコスト優位性は一時的な価格戦争ではない——以下の理由による:

  • MoEアーキテクチャの成熟:DeepSeek V4とKimi K2.6は両方ともMoE(Mixture of Experts)を採用しており、アクティブ化されたパラメータ数は総パラメータ数を大幅に下回る
  • 国産コンピューティングへの適応:DeepSeekと華為昇騰との深い協力により推論コストが削減されている
  • エンジニアリング最適化:中国モデルは一般的に米国の同業者よりもトークン効率に優れている

2. オープンソース vs クローズドソースのパラダイム差異

次元中国オープンソース米国クローズドソース
監査可能性完全に監査可能ブラックボックス
ローカルデプロイサポートサポートなし
カスタムファインチューニング自由にファインチューニング可能制限あり
サプライチェーンセキュリティ自己制御米国サプライヤーに依存
コミュニティエコシステム急速に成長中クローズド

3. 追撃速度は加速している

フロンティアモデルの能力は4ヶ月ごとに倍増し、中国モデルの追撃速度は遅れていない。DeepSeek V3からV4への飛躍は6ヶ月未満で完了し、KimiのK2.5からK2.6へのイテレーションも同様に迅速だった。

市場分析

米国モデルへの影響

中国オープンソースモデルの追撃は米国モデルの価格スペースを圧縮している。DeepSeek V4はすでにSOTAモデルの中で最も安く(Opus 4.7のコストの1/20)、Kimi K2.6や他の中国モデルも価格戦争に加われば、「高性能 + 低コスト」が中国モデルの新しいラベルになる可能性がある

企業意思決定者にとっての意味

シナリオ推奨ソリューション理由
コード修正 / AgentプログラミングDeepSeek V4 / Kimi K2.6性能は同等、コストは1/3、ローカルデプロイ可能
クリエイティブライティング / マルチモーダルClaude / GPTまだ優位性あり
機密データシナリオDeepSeek / Kimi ローカルデプロイデータが国外に出ない
大規模API呼び出しDeepSeek V4コストパフォーマンスが支配的

行動のアドバイス

  • CTO/技術意思決定者:コーディングおよびAgentシナリオでDeepSeek V4とKimi K2.6のテストを優先——コスト節約は著しい可能性がある
  • AIエンジニア:中国オープンソースモデルのファインチューニング可能性は、垂直シナリオに対して深層最適化が可能であることを意味する——これはクローズドソースモデルにはできない
  • 投資家:中国AIモデル企業の海外展開機会に注目——「コスパSOTA」は強力なグローバルナラティブだ