AI 模型实际成本研究：标价便宜不等于真的便宜

在 AI 模型的选型决策中，很多团队习惯于比较 API 的每百万 Token 价格。但斯坦福大学 CRFM 的最新研究表明，这种比较方式存在严重缺陷：标价便宜的模型，实际运行成本可能反而高出数十倍。

斯坦福的 28 倍反转

研究团队在 MMLUPro 基准测试中发现了一个典型案例：

造成这种反转的核心原因有两个：

研究团队估计，约 20% 的模型成本排序在不同基准测试中会出现反转。这意味着单纯依赖标价做选型决策，五分之一的情况下会做出错误的选择。

独立的 Artificial Analysis Index 在 4 月 25 日发布的成本数据也印证了这一发现。以下是运行全套基准评测的总成本：

值得注意的是，GPT-5.5 的 medium 档位（$1,199）在总成本上竟然接近 DeepSeek V4 Pro（$1,071），两者远低于 Claude Opus 4.7（$4,811）。如果只比较标价，这个结论几乎不可能出现。

每个业务场景的 token 消耗模式不同。选型前应该用真实的工作负载在候选模型上跑一组测试，记录：

混合成本 = (输入 token 占比 × 输入单价 + 输出 token 占比 × 输出单价) × 实际 token 消耗系数

对于以输出为主的场景（如内容生成），输出单价的权重更高；对于理解类任务（如 RAG），输入 token 占比更大。

当模型刚发布时，通常运行在最大 compute 预算下以展示最佳性能。Anthropic 和 OpenAI 都曾在发布后悄悄调整 compute 配置，导致同一模型在发布几周后的实际表现和成本发生变化。建议在模型发布后等待 2-4 周再做长期决策。