DeepSeek V4 获 NIST 报告认证能力对标 GPT-5：中国模型 8 个月追平美国顶级

结论：中美模型差距正在被量化和追踪

美国国家标准与技术研究院（NIST）发布的最新 AI 模型评测报告中，一个关键发现引发了行业关注：DeepSeek V4 在多项核心基准上的表现已达到 8 个月前发布的 GPT-5 水平。

这不是某个评测机构的单方面结论，而是来自美国官方技术机构的独立评估。如果当前追赶趋势持续，报告预测中国模型有望在 2027 年 2 月达到 GPT-5.5（约 Mythos 级别）。

NIST 报告对比了多个关键维度：

维度	DeepSeek V4	GPT-5 (8 个月前)	差距
通用推理	接近	基准	≈ 持平
代码生成	接近	基准	≈ 持平
数学推理	略低	基准	-3 到 -5 分
多模态理解	明显落后	基准	-8 到 -10 分
长上下文	接近	基准	≈ 持平
中文能力	明显领先	—	中国模型优势

关键发现：在通用推理和代码生成这两个最实用的维度上，DeepSeek V4 已经追平 GPT-5。差距主要集中在多模态理解——这恰好是 DeepSeek V4 的设计取舍（专注于文本推理效率）。

报告给出了一个值得关注的外推：

2025.09 — GPT-5 发布（美国基准）
2026.01 — DeepSeek V4 达到 GPT-5 水平（滞后 ~4 个月）
2026.09 — GPT-5.5 发布（预期）
2027.02 — 中国模型达到 GPT-5.5 水平（预期滞后 ~5 个月）

如果这个趋势准确，意味着：

DeepSeek V4 的追赶并非通过”堆算力”实现，而是走了不同的技术路线：

这种路径差异的长期影响值得注意：

NIST 报告的外推基于历史趋势，但以下因素可能改变追赶节奏：

NIST 的这份报告之所以重要，不仅因为它量化了中美模型的能力差距，更因为它确认了一个趋势：中国模型的追赶已经从”是否能追上”变成了”多久能追上”。