CAISI 报告：DeepSeek V4Pro 跑分不差，但实战落后美国前沿模型 8 个月

CAISI（美国官方 AI 评测与标准机构）发了一份报告，核心结论很扎眼：DeepSeek V4Pro 相当于去年 8 月发布的 GPT-5，落后美国前沿模型大约 8 个月。

参数不差。跑分不差。那差距从哪来的？

报告给出的答案很明确：实战。

跑分和实战的鸿沟

CAISI 的逻辑不难理解。跑分是标准化的，题目和评分标准都是公开的。DeepSeek V4Pro 在 MMLU、GSM8K、SWE-bench 上的成绩确实可以跟 GPT-5 正面硬刚。

但跑分不等于实战。实战场景有几个跑分测试不到的维度：

工具调用稳定性。在实际 Agent 工作流中，模型需要连续调用多个 API、处理错误、重试、回退。跑分测试通常只测单轮调用的准确率，不测长链路的稳定性。

上下文利用率。给模型 128K 的上下文窗口和让它在 128K 上下文中有效提取关键信息是两回事。CAISI 发现在实际文档处理任务中，DeepSeek V4Pro 的长上下文信息检索效率低于同期的 GPT-5。

多轮对话一致性。在 20 轮以上的复杂对话中，DeepSeek V4Pro 更容易出现前后矛盾或者遗忘早期信息的情况。

这些差距在跑分里看不出来，但在实际使用中会很明显。

CAISI 没有给出一个精确的公式。但从描述来看，它的对标方法是把 DeepSeek V4Pro 的能力映射到美国模型的时间线上——也就是说，DeepSeek V4Pro 当前的综合能力，大约相当于 GPT-5 在 2025 年 8 月发布时的水平。

这个对标有几个前提假设：

这些假设都有争议。但作为政府机构的评测框架，它至少提供了一个可讨论的基准。

说实话，有失偏颇的部分也有合理的部分。

合理的部分：实战差距确实存在。DeepSeek 的优势主要在成本——API 价格只有美国模型的几分之一。但如果实际可用性差了，便宜也就没那么大意义了。

有失偏颇的部分：CAISI 的评测框架天然偏向美国模型的生态。评测任务的设计、工具调用接口的定义、甚至 prompt 的语言风格，都以美国模型的交互习惯为基准。换一个评测体系，结果可能不同。

另外，"8 个月"是一个瞬时快照。DeepSeek 的迭代速度很快，如果 V4Pro 在接下来几个月里持续优化工具调用和长上下文能力，这个差距可能在缩小。

中文社区的反应比较分化。一部分人认为 CAISI 的结论客观——跑分确实不能代表一切，实战差距需要正视。另一部分人认为这是"美国机构给美国模型打分"，可信度有限。

英文社区则普遍认为这个报告印证了他们的直觉：DeepSeek 的性价比高，但在生产环境的稳定性上还需要追赶。

CAISI 的报告最大的价值不在于"8 个月"这个数字本身，而在于它指出了一个被很多人忽略的问题：跑分和实战之间的差距正在扩大。

随着 Agent 工作流越来越复杂，单一 benchmark 分数能说明的东西越来越少。模型需要在工具调用、长上下文、多轮一致性、错误恢复等多个维度同时及格，才能在生产中真正可用。

DeepSeek 如果想在生产环境跟美国前沿模型正面竞争，下一步要优化的不是跑分，是这些"跑分测不到但用户感受得到"的能力。

主要来源：