OpenAIは4月23日にGPT-5.5をリリースしました。GPT-4.5以来のメジャーバージョンアップです。新モデルはTerminal-Bench 2.0で82.7%を記録し、Claude Opus 4.7(69.4%)とGemini 3.1 Pro(68.5%)を引き離しました。このベンチマークは、計画・反復・ツール連携を必要とするコマンドラインシナリオでの長時間タスクを測定するもので、AnthropicがOpus 4.7の発表で重点的にアピールした領域です。GPT-5.5はGPT-5.4(75.1%)から7.6ポイント改善しました。
価格シグナルも同様に重要です。GPT-5.5のAPI価格は入力$5.00/M、出力$30.00/Mで、GPT-5.4($3.50/$18.00)から大幅に上昇しました。Claude Opus 4.7は$5.00/$25.00、DeepSeek V4 Proはわずか$2.20/$3.48です。GPT-5.5は現在、最も高価なフロンティアモデルです。
主要データ比較
| モデル | 入力 ($/M) | 出力 ($/M) | Terminal-Bench 2.0 | コンテキストウィンドウ |
|---|---|---|---|---|
| GPT-5.5 | 5.00 | 30.00 | 82.7% (SOTA) | 200K |
| Claude Opus 4.7 | 5.00 | 25.00 | 69.4% | 200K |
| Gemini 3.1 Pro | 3.50 | 15.00 | 68.5% | 1M |
| DeepSeek V4 Pro | 2.20 | 3.48 | 非公開 | 1M |
GPT-5.0からGPT-5.5まで、OpenAIの価格は急勾配で上昇しました。
アクションアイテム
- ターミナル/コードヘビーユーザー:GPT-5.5のTerminal-Benchでの優位性は現実的です。CLIツールに大きく依存するワークフローの場合は試す価値があります。
- コスト重視シナリオ:DeepSeek V4 ProのAPI価格は、GPT-5.5の代わりとして十分に低いです。
- Codexクォータ変更に注意:コミュニティでは、OpenAIが6月にCodexサブスクリプションのGPT呼び出しクォータを削減する可能性が指摘されています。