GPT-5.5、Claude Opus 4.7、Gemini 3.1 の差はわずか 3 ポイント：フロンティアモデルの知能の天井は到来したか

Artificial Analysis の最新のモデル知能指数を見ると、これまで見たことのない現象に気づくだろう。

GPT-5.5 (xhigh) が 60 点、Claude Opus 4.7 (max) が 57 点、Gemini 3.1 Pro Preview も 57 点。Kimi K2.6 と MiMo-V2.5-Pro がそれぞれ 54 点。

トップ 3 の差はわずか 3 ポイント。測定誤差とベンチマークの変動を考慮すれば、この差は統計的にほぼ同点と言ってよい。

これは 1 年前には想像もできなかったことだ。当時は GPT-4 から GPT-4.5 への飛躍、Claude 3 から Claude 4 への移行、いずれも 2 桁の点差だった。今は？誰もが非常に狭い範囲にひしめき合っている。

これは何を意味するのか。

第一の層は直感的だ。フロンティアモデルの「絶対知能」の成長が減速している。停止したわけではないが減速している。主要プレイヤー全員が同様のトレーニングデータ、同様のコンピューティングスケール、同様のアーキテクチャ（Transformer + MoE + RLHF/RLVR）にアクセスできる状況では、限界的な改善は当然小さくなる。

第二の層はもっと興味深い。モデルを選択する意思決定ロジックが根本的に変化しつつある。

知能がほぼ同じなら、決定要因は他の場所にシフトする。

速度、価格、コンテキストウィンドウ、ツール呼び出しとエージェント能力——これらが新しい決定要因だ。

フロンティアモデルが重要でないと言っているわけではない。だが大多数のアプリケーションシナリオでは、54 点のモデルと 60 点のモデルの差をユーザーはほとんど感じないだろう。

モデル企業は「自分たちが最強」というナラティブをバリュエーションと価格設定の維持のために必要とする。しかしユーザーの実際のニーズはそのナラティブを必要としていない。ユーザーが必要なのは「十分で安い」だ。

今後 6〜12 ヶ月で、「シナリオ特化型」モデルがさらに登場すると予想している。汎用知能指数を追うのではなく、特定のタスクで最適を目指す。コードモデル、法務モデル、医療モデル、多言語モデル——それぞれが自分のレーンで一位を取り、汎用ベンチマークで 2 点多く取ろうとするのではなく。

これはモデル能力の後退ではない。市場の成熟だ。技術的差異が縮まれば、競争は自然とエンジニアリング効率、コスト管理、シナリオ適応に移行する。

主な情報源：

Artificial Analysis: Model Comparison
モデル価格と速度データは各ベンダー公式価格ページより

関連コンテンツ

ACC：エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

RLVRにおけるトークンレベル信用割り当ての再考：DelTAが識別器視点で挑む

MLLMは人を正確に読めるか？MM-OCEANが明らかにする「正解の51%は推測」