C
ChaoBro

GPT-5.5幻覚率86%の警告: モデルIQは十分、しかし信頼性は?

GPT-5.5幻覚率86%の警告: モデルIQは十分、しかし信頼性は?

結論

GPT-5.5は2026年4月のベンチマーク王者だ。Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%。Claude Opus 4.7を全面的にリードしている。

しかし致命的な弱点がある。AA-Omniscience幻覚率テストにおいて、86%の問題で一見合理的だが実際には間違った回答を生成する。Claude Opus 4.7の同テストでの幻覚率は36%だ。

これはつまり、GPT-5.5の「自信満々な間違い」はClaude Opus 4.7の2.4倍であるということ。もしあなたのワークフローが「自信たっぷりに嘘をつく」ことを許容できないなら、このデータはどのベンチマークよりも重要だ。

テスト次元

Terminal-Bench 2.0: GPT-5.5の大勝

指標GPT-5.5Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%+13.3%
GDPval(データ分析)84.9%80.3%+4.6%
CyberGym(セキュリティ)81.8%73.1%+8.7%

GPT-5.5(コードネーム「Spud」)はGPT-4.5以来初めての真のリトレーニングモデル。OpenAIは6回の「偽リリース」でリソースを掩护し、いざ出手となるとターミナル操作、マルチステップエージェント、自動化タスクで差をつけた。

AA-Omniscience 幻覚率: Claude Opus 4.7の圧勝

AA-Omniscienceテストの核心設計:モデルに「知るべきではない」質問を投げかける(でっち上げた事件、架空の人物など)。「自信たっぷりにでっち上げる」かどうかを見る。

  • GPT-5.5:幻覚率86%。ほとんどの場合、それらしく聞こえる答えをでっち上げる
  • Claude Opus 4.7:幻覚率36%。「分からない」と言う傾向が強い

この差は「小さな改善」ではない。世代差である。高信頼性が求められるシナリオ(医療、金融、法務)において、86%の幻覚率は受け入れられない。

MCP Atlas ツール呼び出し能力

モデルMCP Atlasスコアランク
Claude Opus 4.779.1%1位
Gemini 3.1 Pro78.2%2位
GPT-5.575.3%3位

GPT-5.5はMCP(Model Context Protocol)ツール呼び出しで最下位。興味深いことに、分析者は「これは修正すべきバグではなく、回避すべき戦場だ」と指摘する。OpenAIの戦略はSuper Appを作り、自前の壁の中でツールエコシステムを再構築し、MCPを「不要」にすることかもしれない。

選択ガイド

GPT-5.5を選ぶ場合:

  • コアニーズがターミナル操作と自動化タスク
  • 最強のマルチステップエージェント能力が必要
  • ワークフローに「人間レビュー」ステップがあり、幻覚をキャッチできる
  • 予算が主要な制約ではない

Claude Opus 4.7を選ぶ場合:

  • 高信頼性の回答が必要(金融、法務、医療)
  • モデル出力がワークフローの意思決定に直接影響する
  • 最高のMCPツール呼び出し能力が必要
  • 「自分が知らないことを知っている」ことを重視する

見過ごされがちな真実

OpenAIとAnthropicの競争は「偏科」時代に入った。GPT-5.5は究極の「実行者」——ターミナル操作、マルチステップタスク、自動化フロー、どれもお前より上手い。しかし究極の「自信家」でもある。間違っていようが、自信たっぷりに言う。

Claude Opus 4.7はより「慎重な」選手。どのベンチマークでも1位ではないかもしれないが、回答はより信頼できる。

重要な質問:あなたのシナリオに必要なのは「実行力」か「信頼性」か?

ワークフローが一定の誤差を許容できる(レビューステップ、ロールバックメカニズムがある)なら、GPT-5.5の性能優位は検討に値する。出力がレビューなしで意思決定に直接影響するなら、Claude Opus 4.7の低幻覚率はより良い保険だ。