C
ChaoBro

GPT-5.5幻覚率86%の警告: モデルIQは十分、しかし信頼性は?

GPT-5.5幻覚率86%の警告: モデルIQは十分、しかし信頼性は?

結論

GPT-5.5は2026年4月のベンチマーク王者だ。Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%。Claude Opus 4.7を全面的にリードしている。

しかし致命的な弱点がある。AA-Omniscience幻覚率テストにおいて、86%の問題で一見合理的だが実際には間違った回答を生成する。Claude Opus 4.7の同テストでの幻覚率は36%だ。

これはつまり、GPT-5.5の「自信満々な間違い」はClaude Opus 4.7の2.4倍であるということ。もしあなたのワークフローが「自信たっぷりに嘘をつく」ことを許容できないなら、このデータはどのベンチマークよりも重要だ。

テスト次元

Terminal-Bench 2.0: GPT-5.5の大勝

指標 GPT-5.5 Claude Opus 4.7
Terminal-Bench 2.0 82.7% 69.4% +13.3%
GDPval(データ分析) 84.9% 80.3% +4.6%
CyberGym(セキュリティ) 81.8% 73.1% +8.7%

GPT-5.5(コードネーム「Spud」)はGPT-4.5以来初めての真のリトレーニングモデル。OpenAIは6回の「偽リリース」でリソースを掩护し、いざ出手となるとターミナル操作、マルチステップエージェント、自動化タスクで差をつけた。

AA-Omniscience 幻覚率: Claude Opus 4.7の圧勝

AA-Omniscienceテストの核心設計:モデルに「知るべきではない」質問を投げかける(でっち上げた事件、架空の人物など)。「自信たっぷりにでっち上げる」かどうかを見る。

  • GPT-5.5:幻覚率86%。ほとんどの場合、それらしく聞こえる答えをでっち上げる
  • Claude Opus 4.7:幻覚率36%。「分からない」と言う傾向が強い

この差は「小さな改善」ではない。世代差である。高信頼性が求められるシナリオ(医療、金融、法務)において、86%の幻覚率は受け入れられない。

MCP Atlas ツール呼び出し能力

モデル MCP Atlasスコア ランク
Claude Opus 4.7 79.1% 1位
Gemini 3.1 Pro 78.2% 2位
GPT-5.5 75.3% 3位

GPT-5.5はMCP(Model Context Protocol)ツール呼び出しで最下位。興味深いことに、分析者は「これは修正すべきバグではなく、回避すべき戦場だ」と指摘する。OpenAIの戦略はSuper Appを作り、自前の壁の中でツールエコシステムを再構築し、MCPを「不要」にすることかもしれない。

選択ガイド

GPT-5.5を選ぶ場合:

  • コアニーズがターミナル操作と自動化タスク
  • 最強のマルチステップエージェント能力が必要
  • ワークフローに「人間レビュー」ステップがあり、幻覚をキャッチできる
  • 予算が主要な制約ではない

Claude Opus 4.7を選ぶ場合:

  • 高信頼性の回答が必要(金融、法務、医療)
  • モデル出力がワークフローの意思決定に直接影響する
  • 最高のMCPツール呼び出し能力が必要
  • 「自分が知らないことを知っている」ことを重視する

見過ごされがちな真実

OpenAIとAnthropicの競争は「偏科」時代に入った。GPT-5.5は究極の「実行者」——ターミナル操作、マルチステップタスク、自動化フロー、どれもお前より上手い。しかし究極の「自信家」でもある。間違っていようが、自信たっぷりに言う。

Claude Opus 4.7はより「慎重な」選手。どのベンチマークでも1位ではないかもしれないが、回答はより信頼できる。

重要な質問:あなたのシナリオに必要なのは「実行力」か「信頼性」か?

ワークフローが一定の誤差を許容できる(レビューステップ、ロールバックメカニズムがある)なら、GPT-5.5の性能優位は検討に値する。出力がレビューなしで意思決定に直接影響するなら、Claude Opus 4.7の低幻覚率はより良い保険だ。