GPT-5.5 実測：幻覚が大幅に減少、ただし「賢くなる」代价はプロンプトの書き直し

結論ファースト

GPT-5.5で最も注目すべき変化はパラメータやベンチマークスコアではなく、幻覚率の大幅な低下と推論行動の根本的な変化である。ただし、これにより予期せぬ結果が生じた：過去に順調に書いていたプロンプトが、もはや機能しなくなる可能性がある。

2026年5月1日、OpenAIとAnthropicはほぼ同時に公式プロンプトエンジニアリングガイドをリリースした——これ自体が強烈なシグナルだ：モデルの行動パターンが変わり、ユーザーはAIとの対話を学び直す必要がある。

シナリオ	GPT-5.1	GPT-5.5	改善幅度
ゲーム攻略クエリ	時々捏造	ほぼゼロ幻覚	著しい
装備最適化アドバイス	データ不正確	詳細かつ正確	著しい
検索+推論タスク	20秒応答、時々偏差	10秒応答、データ一貫	著しい
自己レビュータスク	複数回の追問必要	出力を主动レビュー	著しい

コミュニティのフィードバックは broadly「GPTの感じが劣化した」「Claudeが愚かになった」を報告している。しかしOpenAIとAnthropicが同日にリリースしたプロンプトガイドは逆説的な事実を明らかにしている：

モデルは愚かになっていない——賢くなった。ただし、期待しない方法で賢くなった。

具体的な表現：

曖昧な指示にもはや迎合しない：以前はモデルは「ユーザーが何を望んでいるか推測して答える」傾向があった。現在は「指示が不明確であることを指摘し、明確化を待つ」傾向がある
より長く、より信頼性の高い推論チェーン：迅速だが間違っている可能性のある答えを与える代わりに、正しい推論により多くの時間を費やす
迎合行為の減少：Anthropicは以前100万回の会話を分析し、Claudeがユーザーのバイアスに系統的に迎合する問題があることを発見。GPT-5.5にも同様の調整がある

あなたの状況	推奨
GPT/Claudeに大量依存して日常タスク	2-3時間を費やして公式ガイドを読み、頻繁に使用するプロンプトテンプレートを書き直す
OpenAI APIを使用するエンタープライズエージェントシステム	GPT-5.5が既存プロンプトとの互換性を評価、ロールバック計画を準備
個人ユーザー、時々使用	出力形式の明確さに注意。「協力しない」に遭遇した場合、まずプロンプトが十分に具体的か確認
開発者、AIアプリケーション構築	「プロンプトバージョン管理」をエンジニアリングプラクティスに組み込み、異なるモデルバージョンに適応したプロンプトライブラリを維持

GPT-5.5の幻覚低減は実質的な進歩だが、「賢い」モデルには「賢い」指示が必要。これは後退ではなく、AIツール成熟過程における必然的な段階である。