GPT-5.5 Instant 静默上线：AIME 暴涨 16 分，幻觉降低 52.5%

结论先行

GPT-5.5 Instant 已经在 ChatGPT 中上线。这不是一次普通的微调——基准数据的跃升幅度令人瞩目：数学推理 AIME 从 65.4% 跳到 81.2%，博士级科学问答 GPQA 从 78.5% 到 85.6%，幻觉率更是直接砍半。OpenAI 正在以远超行业预期的速度迭代模型。

多位用户在 5 月 5 日发现 ChatGPT 中出现了新的 GPT-5.5 Instant 模型。与 GPT-5.5 标准版相比，Instant 版本在保持速度的同时实现了多项基准的显著提升。

测试维度	GPT-5.5	GPT-5.5 Instant	变化幅度
AIME 2025（数学竞赛）	65.4%	81.2%	+15.8%
GPQA（博士级科学）	78.5%	85.6%	+7.1%
CharXiv（图表推理）	75.0%	81.6%	+6.6%
MMMU-Pro（多模态理解）	69.2%	76.0%	+6.8%
幻觉率	基准值	-52.5%	降低过半

最惊人的数字是 AIME：16 个百分点的跳跃在成熟模型迭代中极为罕见。这暗示 GPT-5.5 Instant 可能在数学推理路径上做了架构级优化，而非简单的数据增强。

OpenAI 此前从未用 “Instant” 命名模型版本。结合数据表现，合理的推测是：

幻觉率减半不只是数字游戏。在实际应用中，这意味着：

回顾 OpenAI 近期的模型发布节奏：

OpenAI 正在将模型迭代周期从季度压缩到月级。如果 GPT-5.6（代号 Goblin）确实在 9 月 DevDay 发布，那意味着 2026 年将有 4 个主要版本——这是行业前所未有的发布密度。

GPT-5.5 Instant 的 AIME 81.2% 放在当前模型格局中是什么水平？

GPT-5.5 Instant 在数学推理上暂时回到了领先位置。但注意：Claude Mythos 预览版在网络安全基准上仍有优势，不同模型的专长领域正在分化。

如果你在用 ChatGPT Plus/Pro：

如果你在评估 API 方案：

如果你在做模型路由：

GPT-5.5 Instant 的静默上线再次证明：OpenAI 的策略是”快速迭代、小步快跑”。它不再等待”完美模型”，而是持续推出增量改进，让用户和开发者在不知不觉中完成迁移。

这种策略的副作用是：模型命名和版本管理正在变得混乱（GPT-5、GPT-5.5、GPT-5.5 Instant、即将到来的 GPT-5.6/Goblin）。但从商业角度看，它有效——用户粘性持续增强，竞争对手追赶的节奏被不断打乱。