GPT-5.5 幻觉率 86% 的警告：模型智商够了，但靠谱度呢？

结论

GPT-5.5 是 2026 年 4 月 benchmark 上的王者——Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%，全面领先 Claude Opus 4.7。

但它有一个致命弱点：在 AA-Omniscience 幻觉率测试中，86% 的问题会产生看似合理但实际错误的答案。Claude Opus 4.7 在同一测试中的幻觉率是 36%。

这意味着：GPT-5.5 的"自信错误"比 Claude Opus 4.7 多 2.4 倍。如果你的工作流不能容忍"一本正经地胡说八道"，这个数据比任何 benchmark 都重要。

指标	GPT-5.5	Claude Opus 4.7	差距
Terminal-Bench 2.0	82.7%	69.4%	+13.3%
GDPval（数据分析）	84.9%	80.3%	+4.6%
CyberGym（安全）	81.8%	73.1%	+8.7%

GPT-5.5（代号"Spud"）是 GPT-4.5 之后首次真正重训的模型。OpenAI 用 6 次"虚发布"掩护资源，一出手就在终端操作、多步 Agent 和自动化任务上拉开了差距。

AA-Omniscience 测试的核心设计：向模型提出它"不应该知道答案"的问题（比如编造的事件、虚构的人物），看它是否会"自信地编造答案"。

这个差距不是"小改进"，是代差级的。对于需要高可靠性的场景（医疗、金融、法律），86% 的幻觉率是不可接受的。

GPT-5.5 在 MCP（Model Context Protocol）工具调用上垫底。有趣的是，分析者指出"这不是要修复的 bug——是要绕过的战场"。OpenAI 的策略可能是做 Super App，在自己围墙内重建 tool 生态，让 MCP"不必要"。

模型	输入价格	输出价格	相对 GPT-5.5
GPT-5.5	$30/1M tokens	$60/1M tokens	基准
Claude Opus 4.7	$15/1M tokens	$75/1M tokens	输入半价
DeepSeek V4 Pro	$0.14/1M tokens	$0.50/1M tokens	1/166

GPT-5.5 的价格是 DeepSeek V4 Pro 的 166 倍。对于大量调用的场景，这个差距会直接反映在运营成本上。

OpenAI 和 Anthropic 的竞争已经进入了"偏科"时代。GPT-5.5 是极致的"执行者"——终端操作、多步任务、自动化流程，它都比你强。但它也是极致的"自信者"——即使是错的，它也会自信地说出来。

Claude Opus 4.7 是更"谨慎"的选手——它可能不会在每个 benchmark 上都第一，但它的回答更可靠。

关键问题是：你的场景更需要"执行力"还是"可靠性"？

如果你的工作流能容忍一定程度的错误（有审查环节、有回滚机制），GPT-5.5 的性能优势值得考虑。如果你的输出直接影响决策且没有审查环节，Claude Opus 4.7 的低幻觉率是更好的保险。