Artificial Analysis の最新のモデル知能指数を見ると、これまで見たことのない現象に気づくだろう。
GPT-5.5 (xhigh) が 60 点、Claude Opus 4.7 (max) が 57 点、Gemini 3.1 Pro Preview も 57 点。Kimi K2.6 と MiMo-V2.5-Pro がそれぞれ 54 点。
トップ 3 の差はわずか 3 ポイント。測定誤差とベンチマークの変動を考慮すれば、この差は統計的にほぼ同点と言ってよい。
これは 1 年前には想像もできなかったことだ。当時は GPT-4 から GPT-4.5 への飛躍、Claude 3 から Claude 4 への移行、いずれも 2 桁の点差だった。今は?誰もが非常に狭い範囲にひしめき合っている。
これは何を意味するのか。
第一の層は直感的だ。フロンティアモデルの「絶対知能」の成長が減速している。停止したわけではないが減速している。主要プレイヤー全員が同様のトレーニングデータ、同様のコンピューティングスケール、同様のアーキテクチャ(Transformer + MoE + RLHF/RLVR)にアクセスできる状況では、限界的な改善は当然小さくなる。
第二の層はもっと興味深い。モデルを選択する意思決定ロジックが根本的に変化しつつある。
知能がほぼ同じなら、決定要因は他の場所にシフトする。
速度、価格、コンテキストウィンドウ、ツール呼び出しとエージェント能力——これらが新しい決定要因だ。
フロンティアモデルが重要でないと言っているわけではない。だが大多数のアプリケーションシナリオでは、54 点のモデルと 60 点のモデルの差をユーザーはほとんど感じないだろう。
モデル企業は「自分たちが最強」というナラティブをバリュエーションと価格設定の維持のために必要とする。しかしユーザーの実際のニーズはそのナラティブを必要としていない。ユーザーが必要なのは「十分で安い」だ。
今後 6〜12 ヶ月で、「シナリオ特化型」モデルがさらに登場すると予想している。汎用知能指数を追うのではなく、特定のタスクで最適を目指す。コードモデル、法務モデル、医療モデル、多言語モデル——それぞれが自分のレーンで一位を取り、汎用ベンチマークで 2 点多く取ろうとするのではなく。
これはモデル能力の後退ではない。市場の成熟だ。技術的差異が縮まれば、競争は自然とエンジニアリング効率、コスト管理、シナリオ適応に移行する。
主な情報源:
- Artificial Analysis: Model Comparison
- モデル価格と速度データは各ベンダー公式価格ページより