C
ChaoBro

GPT-5.5、Claude Opus 4.7、Gemini 3.1 只差 3 分:前沿模型的智力天花板到了吗

GPT-5.5、Claude Opus 4.7、Gemini 3.1 只差 3 分:前沿模型的智力天花板到了吗

看一眼 Artificial Analysis 最新的模型智力指数,你会注意到一个之前没有过的现象:

GPT-5.5 (xhigh) 60 分,Claude Opus 4.7 (max) 57 分,Gemini 3.1 Pro Preview 57 分。Kim K2.6 和 MiMo-V2.5-Pro 各 54 分。

前三名之间只差 3 分。如果把测量误差和基准波动考虑进去,这个差距几乎可以认为是统计意义上的平手。

这在一年前是不可想象的。那时候 GPT-4 到 GPT-4.5 的跃迁、Claude 3 到 Claude 4 的跨越,每次都是两位数分的差距。现在?大家挤在一个很窄的区间里。

这意味着什么?

第一层含义比较直观:前沿模型的"绝对智力"增长在减速。不是停止,是减速。当所有头部玩家都能拿到类似的训练数据、类似的算力规模、类似的架构(Transformer + MoE + RLHF/RLVR),边际提升自然会越来越小。

第二层含义更有意思:选择模型的决策逻辑正在发生根本变化。

如果智力差不多,那决定因素就转移到了别的地方:

  • 速度:Mercury 2 跑 905 tokens/s,而前沿推理模型可能只有 20-30 tokens/s。对于大多数日常任务,速度差异的影响远大于那 3 分的智力差。
  • 价格:GPT-5.5 (xhigh) 的价格是 Qwen3.5 0.8B 的几千倍。如果你的任务 8B 模型能搞定 90%,为什么要为剩下的 10% 多付 50 倍的钱?
  • 上下文窗口:Llama 4 Scout 有 1000 万 token 的上下文,而大多数前沿推理模型还在几十万到两百万的区间。处理长文档的时候,这个差异是质变。
  • 工具调用和 Agent 能力:这些能力不在"智力指数"里,但对实际工作流的影响可能更大。

我不是说前沿模型不重要。当你的任务是"解决一个没有人解决过的数学难题"或"分析 500 页的法律文件找出隐藏条款"时,那额外的 3 分可能就是能和不能的区别。但对绝大多数应用场景——写代码、写文档、数据分析、客服——54 分的模型和 60 分的模型产出的差异,用户可能根本感觉不到。

模型公司的叙事需要"我们最强"的故事来维持估值和定价。但用户的实际需求不需要这个叙事。用户需要的是"够用且便宜"。

这也解释了为什么 Qwen3.5 系列在速度榜和价格榜上占据前排,而它的智力指数只有 30 多分——对大量任务来说,30 多分够用了,但速度是 905 tokens/s,价格是 $0.02/M tokens。这个性价比组合比"60 分但慢 30 倍、贵 1000 倍"有吸引力得多。

未来 6-12 个月,我预计会看到更多"场景特化"模型的出现:不是追求通用智力指数,而是在特定任务上做到最优。代码模型、法律模型、医学模型、多语言模型——每个都在自己的赛道里拿第一,而不是试图在通用榜上多拿 2 分。

这不是模型能力的衰退,是市场成熟的表现。当技术差异缩小,竞争自然会转移到工程效率、成本控制和场景适配上。

主要来源:

  • Artificial Analysis: Model Comparison
  • 模型价格与速度数据来自各厂商官方价格页