情報サマリー
2026年4月下旬から5月初旬にかけて、中国AI業界はわずか17日間で4つのオープンソース/オープンウェイトフラッグシップモデルを密集リリースした:
- GLM-5.1(智譜AI):754B MoE、MITオープンソースライセンス
- Kimi K2.6(月之暗面):1T MoE、オープンウェイト
- DeepSeek V4(深度求索):兆級MoE、オープンソース
- MiMo V2.5 Pro(シャオミ):マルチモーダルオープンソースモデル
コミュニティの実測結論は簡潔かつ力強い:Kimi K2.6が最速、GLM-5.1が最も「派手」、DeepSeek V4が最も包括的、シャオミMiMoが最慢。
しかし、このシンプルな評価の背後には、中国オープンソースAIが「追撃ストーリー」から「差別化競争」へと深く転換している事実がある。
4モデルの能力プロフィール
GLM-5.1:最も「派手」なオールラウンダー
GLM-5.1のキーワードは機能の網羅性である。754B MoEアーキテクチャは、どの次元にも短板がない能力を与えている:
- コーディング能力:コードアリーナで国産第一位、Kimi K2.6とDeepSeek V4 Proを凌駕
- エージェントツール呼び出し:長時間の自律実行と複雑なエンジニアリングタスクに特化して最適化
- 華為昇騰で訓練:完全に非NVIDIAチップ上で訓練、ゼロ英偉達依存
「最も派手」の実質はこうだ:GLM-5.1は機能の広さにおいてクローズドソースのフラッグシップモデルに最も近い。特定の部門のチャンピオンではないが、オープンソースオプションの中で最も「全能」に近い。
Kimi K2.6:速度の王
Kimi K2.6の切り札は推論速度だ。1TパラメータのMoEアーキテクチャにおいて、各トークンは約320億パラメータのみをアクティブ化する。つまり:
- 無料で利用可能:Fireworks AIなどのプラットフォームで無料の推論サービスを提供
- コーディング+数学の両方に強い:LiveCodeBench v6スコア53.7%、Claude Sonnet 4を上回る
- 256Kコンテキストウィンドウ:画像と動画の入力をサポート
コミュニティのコンセンサスは明確だ:迅速な反復と低コストのプロトタイプ開発が必要なら、Kimi K2.6が現時点で最高の選択である。その「速さ」は単に推論速度が速いだけでなく、アイデアからコードまでの反復速度なのである。
DeepSeek V4:包括的だが「最下位」?
DeepSeek V4はアリーナコーディングランキングで国産四位となり、この結果はいくらかの議論を呼んだ。しかし「最下位」は正しく理解する必要がある:
- 比較基準は国産フラッグシップ:四位でも依然として世界級レベル
- SWE-bench 80.6%:Claude Opus 4.6(80.8%)とわずか0.2ポイント差
- コスト優位性:API価格は同等性能のクローズドソースモデルを大幅に下回る
DeepSeek V4の「包括性」はこう体现されている:コーディング、推論、数学、マルチモーダルなど複数の次元で一流水準を維持し、明らかな短板がない。しかし、このレベルの競争において「短板がない」は「長板がある」と同義ではない。
MiMo V2.5 Pro:遅いが驚きあり
シャオミMiMo V2.5 Proは4モデルの中で推論速度が最も遅いが、独特のポジショニングを持っている:コンシューマーGPUで実行可能。
- ネイティブマルチモーダル:設計当初からマルチモーダルモデルであり、後付けの拼接ではない
- シャオミエコシステム統合:シャオミのスマホ、自動車、IoTデバイスとの深い統合
- GDPVal評価でリード:特定の評価次元で際立ったパフォーマンス
「遅さ」はシャオミにとって問題ではないかもしれない——シャオミのビジネスモデルは究極の推論速度よりもエンドユーザー体験を重視しているからである。
格局の組み替え:「誰が強いか」から「誰が適合するか」へ
これら4モデルの同時存在は、重要なパラダイム転換を标志着している:
以前:オープンソースモデルの目標は「GPT/Claudeに追いつく」ことであり、評価基準は単一の性能ランキングだった。
現在:4つの国産オープンソースモデルはいずれもアリーナ上でクローズドソースのフラッグシップレベルに達するか接近しており、評価基準はシナリオ適合度へ移行した:
- 最速のプロトタイプ反復が必要 → Kimi K2.6
- 最も包括的な能力が必要 → GLM-5.1
- 最低コストの本番デプロイが必要 → DeepSeek V4
- 端末デバイス統合が必要 → MiMo V2.5 Pro
これは「誰が誰を置き換えるか」のストーリーではなく、「分業協力」のエコシステム形成なのである。
シグナル解读
17日間で4つのフラッグシップモデルのリリース密度自体がシグナルである。これは偶然の一致ではない——以下を反映している:
- 技術の収束:MoEアーキテクチャ、GRPO最適化、Thinking Tokenなどのコア技術の成熟により、各社の研究開発サイクルが大幅に短縮
- 競争の加速:いずれか1社が新モデルをリリースすると、他社は数週間以内にフォローアップしなければ、市場から「落后している」と見なされるリスクがある
- コストの崩壊:訓練と推論コストの継続的な低下により、フラッグシップモデルリリースの閾値が急速に低下している
同時に、GLM-5.1が華為昇騰上で訓練を完了したという事実は、「英偉達チップでしか前沿モデルを訓練できない」というナラティブをさらに打破した。計算力サプライチェーンの多様化は理論から実践へ移行しつつある。
アクション提言
- エージェントフレームワーク開発者:「マルチモデルルーティング」戦略の構築を提言する——Kimi K2.6を高速応答のデフォルトモデルとし、GLM-5.1を複雑タスクのバックアップ、DeepSeek V4をバッチ処理のコスト最適化オプションとする。
- 企業の技術选型:ランキング上の単一スコアだけを見るな。実際のシナリオ(遅延敏感度、コンカレンシー要件、データプライバシー要件)に基づいてモデルを選択せよ。
- 個人開発者:Kimi K2.6の無料推論サービスは、現時点でフラッグシップモデルを体験する最低閾値の方法だ。これから始めよう。
相互検証
この判断は複数の独立したシグナルによって印证されている:コミュニティ実測(497いいね、185ブックマークの比較投稿)、アリーナリーダーボードのランキング変動、SWE-benchとLiveCodeBenchでのパフォーマンスの一貫性。同時に、智譜Coding Planの好調な販売とKimiの密集融資(半年で39億ドル超)は、商業化の角度からこれらのモデルの市場競争力を裏付けている。
4つの国産オープンソースモデルが同時に前沿レベルに達したとき、競争の性質は「追いつけるか」から「どう差別化するか」へ移行した。これは中国AI業界が成熟に向かっている証である。