AI 模型实际成本研究:标价便宜不等于真的便宜

在 AI 模型的选型决策中,很多团队习惯于比较 API 的每百万 Token 价格。但斯坦福大学 CRFM 的最新研究表明,这种比较方式存在严重缺陷:标价便宜的模型,实际运行成本可能反而高出数十倍

斯坦福的 28 倍反转

研究团队在 MMLUPro 基准测试中发现了一个典型案例:

  • Gemini 3 Flash 的标价:比 Claude Haiku 4.5 便宜 1.7 倍
  • Gemini 3 Flash 的实际成本(完成相同任务):比 Claude Haiku 4.5 贵 28 倍

造成这种反转的核心原因有两个:

  1. Token 效率差异:某些模型在回答复杂问题时需要更多轮对话和更长输出,导致实际消耗远超预期
  2. 任务完成率:如果模型无法一次给出正确答案,反复重试的成本会迅速累积

研究团队估计,约 20% 的模型成本排序在不同基准测试中会出现反转。这意味着单纯依赖标价做选型决策,五分之一的情况下会做出错误的选择。

Artificial Analysis Index 的最新数据

独立的 Artificial Analysis Index 在 4 月 25 日发布的成本数据也印证了这一发现。以下是运行全套基准评测的总成本:

模型评测总成本
Claude Opus 4.7$4,811
Sonnet 4.6$3,959
GPT-5.5 (xhigh)$3,357
GPT-5.4 (xhigh)$2,851
GPT-5.5 (high)$2,159
DeepSeek V4 Pro$1,071
GPT-5.5 (medium)$1,199

值得注意的是,GPT-5.5 的 medium 档位($1,199)在总成本上竟然接近 DeepSeek V4 Pro($1,071),两者远低于 Claude Opus 4.7($4,811)。如果只比较标价,这个结论几乎不可能出现。

实际工作中的启示

1. 用实际负载测试,不要用标价做决策

每个业务场景的 token 消耗模式不同。选型前应该用真实的工作负载在候选模型上跑一组测试,记录:

  • 平均每次调用的输入/输出 token 数
  • 任务一次完成率
  • 平均延迟

2. 关注”混合成本”而非单一价格

混合成本 = (输入 token 占比 × 输入单价 + 输出 token 占比 × 输出单价) × 实际 token 消耗系数

对于以输出为主的场景(如内容生成),输出单价的权重更高;对于理解类任务(如 RAG),输入 token 占比更大。

3. 新模型上线初期的成本陷阱

当模型刚发布时,通常运行在最大 compute 预算下以展示最佳性能。Anthropic 和 OpenAI 都曾在发布后悄悄调整 compute 配置,导致同一模型在发布几周后的实际表现和成本发生变化。建议在模型发布后等待 2-4 周再做长期决策。

主要来源