GPT-5.5幻覚率86%の警告: モデルIQは十分、しかし信頼性は?

結論

GPT-5.5は2026年4月のベンチマーク王者だ。Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%。Claude Opus 4.7を全面的にリードしている。

しかし致命的な弱点がある。AA-Omniscience幻覚率テストにおいて、86%の問題で一見合理的だが実際には間違った回答を生成する。Claude Opus 4.7の同テストでの幻覚率は36%だ。

これはつまり、GPT-5.5の「自信満々な間違い」はClaude Opus 4.7の2.4倍であるということ。もしあなたのワークフローが「自信たっぷりに嘘をつく」ことを許容できないなら、このデータはどのベンチマークよりも重要だ。

テスト次元

Terminal-Bench 2.0: GPT-5.5の大勝

指標	GPT-5.5	Claude Opus 4.7	差
Terminal-Bench 2.0	82.7%	69.4%	+13.3%
GDPval（データ分析）	84.9%	80.3%	+4.6%
CyberGym（セキュリティ）	81.8%	73.1%	+8.7%

GPT-5.5（コードネーム「Spud」）はGPT-4.5以来初めての真のリトレーニングモデル。OpenAIは6回の「偽リリース」でリソースを掩护し、いざ出手となるとターミナル操作、マルチステップエージェント、自動化タスクで差をつけた。

AA-Omniscience 幻覚率: Claude Opus 4.7の圧勝

AA-Omniscienceテストの核心設計：モデルに「知るべきではない」質問を投げかける（でっち上げた事件、架空の人物など）。「自信たっぷりにでっち上げる」かどうかを見る。

GPT-5.5：幻覚率86%。ほとんどの場合、それらしく聞こえる答えをでっち上げる
Claude Opus 4.7：幻覚率36%。「分からない」と言う傾向が強い

この差は「小さな改善」ではない。世代差である。高信頼性が求められるシナリオ（医療、金融、法務）において、86%の幻覚率は受け入れられない。

MCP Atlas ツール呼び出し能力

モデル	MCP Atlasスコア	ランク
Claude Opus 4.7	79.1%	1位
Gemini 3.1 Pro	78.2%	2位
GPT-5.5	75.3%	3位

GPT-5.5はMCP（Model Context Protocol）ツール呼び出しで最下位。興味深いことに、分析者は「これは修正すべきバグではなく、回避すべき戦場だ」と指摘する。OpenAIの戦略はSuper Appを作り、自前の壁の中でツールエコシステムを再構築し、MCPを「不要」にすることかもしれない。

選択ガイド

GPT-5.5を選ぶ場合：

コアニーズがターミナル操作と自動化タスク
最強のマルチステップエージェント能力が必要
ワークフローに「人間レビュー」ステップがあり、幻覚をキャッチできる
予算が主要な制約ではない

Claude Opus 4.7を選ぶ場合：

高信頼性の回答が必要（金融、法務、医療）
モデル出力がワークフローの意思決定に直接影響する
最高のMCPツール呼び出し能力が必要
「自分が知らないことを知っている」ことを重視する

見過ごされがちな真実

OpenAIとAnthropicの競争は「偏科」時代に入った。GPT-5.5は究極の「実行者」——ターミナル操作、マルチステップタスク、自動化フロー、どれもお前より上手い。しかし究極の「自信家」でもある。間違っていようが、自信たっぷりに言う。

Claude Opus 4.7はより「慎重な」選手。どのベンチマークでも1位ではないかもしれないが、回答はより信頼できる。

重要な質問：あなたのシナリオに必要なのは「実行力」か「信頼性」か？

ワークフローが一定の誤差を許容できる（レビューステップ、ロールバックメカニズムがある）なら、GPT-5.5の性能優位は検討に値する。出力がレビューなしで意思決定に直接影響するなら、Claude Opus 4.7の低幻覚率はより良い保険だ。

結論

テスト次元

Terminal-Bench 2.0: GPT-5.5の大勝

AA-Omniscience 幻覚率: Claude Opus 4.7の圧勝

MCP Atlas ツール呼び出し能力

選択ガイド

GPT-5.5を選ぶ場合：

Claude Opus 4.7を選ぶ場合：

見過ごされがちな真実

関連コンテンツ

A2UI、MCP Apps、AG-UIの選び方：Agent UIでプロトコル名に惑わされないために

Basetenの企業価値が130億ドルに高騰した背景：オープンモデル推論スタックは自社運用する価値があるのか

Codex Sites vs Claude Code Artifacts：アプリをホストしたいのか、解説をホストしたいのか