4月20日、有名テクノロジーブロガーのMrwhosethebossが「Claude > Gemini > ChatGPT、今差距很大」と投稿した。たった5日後、OpenAIがGPT-5.5をリリースし、Terminal-Benchが69.4%(Claude)から82.7%に跳ね上がり、複数のベンチマークのリーダーが易主した。
2026年における「最佳モデル」というラベルの実際の有効期限は5日だ。
Q1モデルリリースペース
2026年第1四半期、主要フロンティアモデルのリリース密度は前例のないものだった:
- 1月:Google Gemini 2.5 Pro
- 2月:Claude Opus 4.6
- 4月16日:Claude Opus 4.7
- 4月23日:GPT-5.5
さらに、DeepSeek V4、Moonshot Kimi K2.5、Mistral Medium 3、Qwen 3.1などのオープンソースおよび半オープンソースモデルも同時にリリースまたは更新された。平均すると、ほぼ7日ごとに主要モデルの更新またはリリースがあった。
排行榜の「ローテーション効果」
過去3ヶ月の主要評価結果を比較すると、明確なパターンが見える:
| 時点 | Terminal-Bench リーダー | SWE-bench Pro リーダー | HLE リーダー |
|---|---|---|---|
| 3月 | Claude Opus 4.6 | Claude Opus 4.6 | Claude Opus 4.6 |
| 4月中旬 | Claude Opus 4.7 | Claude Opus 4.7 | Claude Opus 4.7 |
| 4月下旬 | GPT-5.5 | Claude Opus 4.7 | Claude Opus 4.7 |
GPT-5.5はTerminal-BenchでOpus 4.7を大幅に上回ったが、SWE-bench ProとHLEでは逆転できなかった。これは、異なるモデルがすでに異なる次元で独自の「モート」を構築していることを示している——どのモデルもすべての評価で1位を維持することはできない。
なぜ「最佳」ラベルが失效したのか
根本的な原因は2つある。
1つ目は、モデル能力が収束していること。トレーニングデータ、アーキテクチャ、最適化手法の趋同により、フラッグシップモデル間の絶対格差は縮小している。GPT-5.5とOpus 4.7の差はもはや「全面的な圧倒」ではなく「得意な領域の違い」になっている。
2つ目は、評価ベンチマーク自体が急速にイテレーションしていること。Terminal-Benchはすでに2.0バージョンに達しており、新しい評価が不断に登場している。あるモデルが今月のベンチマークでリードしていても、来月の新しいベンチマークがリリースされるとランキングが変化してしまう。
ユーザーへの実際の意味
AIモデルを選択する場合、「どれが最佳か」を追及するのではなく、「どれが自分の仕事に最适合か」を問うべきだ:
- ターミナル操作/DevOps:GPT-5.5(Terminal-Bench 82.7%)
- ソフトウェアエンジニアリング/コードリファクタリング:Claude Opus 4.7(SWE-bench Proでリード)
- 高難度推論:Claude Opus 4.7(HLE 46.9%)
- コストパフォーマンス/日常使用:Claude SonnetまたはGemini無料層
モデルイテレーションが週単位で行われる時代において、「最佳モデル」声明の有効期間はますます短くなっている。しかし、モデルの差別化された優位性は形成されつつある——これを理解することは、排行榜を追うことより価値がある。