結論先行
ベンチマークの順位と生産環境の体験に大きな分歧が見られる。4週間の実使用データがより複雑な図を明らかにする:
- GPT-5.5: 最低遅延、最強関数呼び出し、MRCR 74%でリード
- Claude Opus 4.7: 総合推論・コーディング最強、SWE-bench Pro 64.3%、HLE 46.9%でリード
- Gemini 3.1 Pro: コードベースコンテキスト拡張に優れるが、総合能力で「GPT 5.5とClaude Opus 4.7に遅れを取っている」とコミュニティが認識
テスト次元
コーディング能力
| モデル | SWE-bench | SWE-bench Pro | HLE | MRCR @ 1M |
|---|---|---|---|---|
| Claude Opus 4.7 | — | 64.3% | 46.9% | 32.2% |
| GPT-5.5 | — | 58.6% | 41.4% | 74% |
| Qwen3.6-Max-Preview | 78.8% | — | — | — |
生産環境フィードバック
| 次元 | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| 遅延 | ⭐⭐⭐ 最低 | ⭐⭐ 中等 | ⭐⭐ 中等 |
| 関数呼び出し | ⭐⭐³ 最適 | ⭐⭐ 利用可 | ⭐⭐ 利用可 |
| 推論深度 | ⭐⭐ 良好 | ⭐⭐⭐ 最適 | ⭐⭐ 良好 |
| コスト効率 | ⭐ Pro $180/M | ⭐ $15/$75 per 1M | ⭐⭐⭐ $12/M |
選擇建議
シナリオ1:コーディングエージェント
Claude Opus 4.7を選択。深い推論とコード理解タスクで最も安定した性能。
シナリオ2:大規模コードベース
GPT-5.5を選択。1Mコンテキストでリポジトリ全体を同時に「見える」。
シナリオ3:フロントエンド/UI生成
Gemini 3.1 Proが良い選択。$12/Mの価格が非常に競争力。
格局判断
「万能モデル」の時代は終わっている。
マルチモデルルーティングが主流アーキテクチャになりつつある。「最高のモデルを1つ選ぶ」のではなく、「各タスクに最も適したモデルを選ぶ」。
2026年5月の予想:Claude Sonnet 4.8、Meta Avocado、GPT-5.6の可能性——モデル競争は終わっていないが、競争のルールは「ベンチマークスコア」から「生産体験」へ移行している。