コアシグナル
最新のIntelligence Indexデータが、見過ごされがちなトレンドを明らかにしている:中国のオープンソースモデルとグローバルなクローズドソース・フラッグシップとの能力差が急速に縮小している。
| モデル | Intelligence Index | オープンソース | 価格ポジショニング |
|---|---|---|---|
| GPT-5.5 | 60 | クローズド | $5/$30 per M |
| Gemini 3 / Claude | 57 | クローズド | $3.50/$15 per M |
| Kimi K2.6 | 54 | オープン | ~$1.70/$3 per M |
| MiMo V2.5 Pro | 54 | オープン | MITライセンス |
| DeepSeek V4 Pro | 52 | オープン | $2.20/$3.48 per M |
| GLM-5.1 | ~50 | オープン | サブスクリプション |
| MiniMax M2.7 | ~49 | オープン | 低コスト |
GPT-5.5とKimi K2.6の差はわずか6ポイント。Kimi K2.6のAPI価格がGPT-5.5の1/10であることを考えると、このコストパフォーマンス曲線はすでに大多数の企業のモデル選定判断を変えるのに十分な急勾配になっている。
6ポイント差の実践的意味
Intelligence Indexの設計意図は、現実のシナリオにおけるモデルの能力を総合的に評価することだ——ベンチマークの暗記ではなく、推論、コーディング、指示追従、長いコンテキストなど複数の次元にわたる加重スコアである。
6ポイントの差は何を意味するのか?
日常の開発シーンの80%において、ユーザーには違いがわからない。
VEXで「節約AIパッケージ」を共有した開発者は率直に語っている:
「コーディングにはDeepSeek V4 Flashを使っています。無料枠で日常使いに十分です。推論能力が必要なときはProに切り替えて、従量課制で月に数元しかかかりません。」
これは理論上の「十分使える」ではなく、本番環境での実際の選択だ。Kimi K2.6がLiveBench(動的なカンニング防止評価)でClaude Opus 4.7を破ったとき、クローズドソースモデルの「能力の堀」という物語は崩れ始めた。
オープンソースモデルの追撃パス
Intelligence Indexの変化の軌跡を振り返ると:
2025年Q2: GPT-5.0 (50) vs DeepSeek V3 (38) → 12ポイント差
2025年Q4: GPT-5.2 (55) vs DeepSeek V4 (45) → 10ポイント差
2026年Q1: GPT-5.5 (60) vs Kimi K2.6 (54) → 6ポイント差
追撃ペースは加速している。半年ごとに2〜4ポイント差が縮まっているとすると、2026年末までにオープンソースモデルは現在のGPT-5.5レベルに追いつく可能性がある。
しかし、これは単なる「パラメータが多ければいい」という話ではない。Kimi K2.6とMiMo V2.5 ProはいずれもMoE(混合エキスパート)アーキテクチャを採用しており、総パラメータ数が1兆に達しながらも、活性化パラメータ数を約50Bに抑えている。这意味着推論コストを大幅に削減できながら、能力を犠牲にしない。
見過ごされた変数:実践の差
米国CAISI機関の評価レポートは、DeepSeek V4 Proの総合能力が「最前線から約8ヶ月遅れている」と指摘している。この判断はIntelligence Indexである程度裏付けられている——52点は確かに60点より低い。
しかし「8ヶ月の差」という解釈は完全な文脈で捉える必要がある:
- GPT-5.5は去年8月にリリースされたGPT-5.0のイテレーション版であり、DeepSeek V4 Proの能力はすでにそのバージョンに追いついている
- コード生成、中国語理解、長文処理などの細分化されたシーンでは、国産モデルの表現は国際フラッグシップと同じティアにある
- オープンウェイト + ローカルデプロイの能力は、クローズドソースモデルが決して提供できないものだ
ある開発者のまとめは的確だった:
「パラメータ不差、スコア不差——では差はどこにあるのか?最大の差は実践だ。しかし、あなたのシーンが最前線の100%の能力を必要としないなら、92%の能力 + 1/10の価格、それがより良い選択だ。」
構造判断
Intelligence Indexのデータは、一つの基本的な仮定を書き換えつつある:クローズドソースモデルの能力優位は永続的である。
オープンソースモデルが6ポイント差でクローズドソース・フラッグシップに迫り、同時に価格が1/5から1/10であるとき、市場競争のロジックは「誰が一番強いか」から「誰が最も適しているか」に変わる。
この変化の連鎖反応:
- 企業調達:「一番高いものを買う」から「シーン別に配分する」へ——コア推論はGPT-5.5、日常開発はDeepSeek、長文はKimi
- 個人開発者:マルチモデルルーティングが標準スキルに——モデルを调配できることが、単一モデルを使いこなすことより重要になる
- モデルベンダー:クローズドソースベンダーは、「6ポイント差」が特定のシーンで代替不可能な価値を持っていることを証明しなければならない。否则、価格の階層化は直接的に市場シェアの流失につながる
アクションアドバイス
- モデル移行を評価している場合:まずKimi K2.6またはDeepSeek V4 Proを20%の実際のビジネスシーンでテストしてみよう——Intelligence Indexの6ポイント差は日常シーンではおそらく感知できない
- モデル調達判断をしている場合:Intelligence Indexの絶対スコアだけを見るのではなく、「Intelligenceポイントあたりのコスト」を計算しよう——Kimi K2.6は約$0.055/Mトークン/ポイント、GPT-5.5は約$0.50/Mトークン/ポイント、9倍の差がある
- Agentアプリケーションを開発している場合:MoEアーキテクチャのオープンソースモデルはAgentシーンでさらに顕著なコスト優位性を持つ。なぜならAgentは通常大量のトークン消費を必要とし、単位コストの影響が増幅されるからだ