核心结论
“中国 AI 落后两年”——这个说法在 2026 年 5 月已经不再成立。
State of AI May 2026 报告披露了一个被严重低估的事实:DeepSeek V4 和 Kimi K2.6 等中国开源模型在 SWE-Bench Pro 上的得分已经追平 Claude Opus 4.7 和 GPT-5.5,而 API 成本仅为后者的三分之一。 这不是”接近”,是”打平”。更关键的是,前沿模型的网络攻击能力每 4 个月翻倍,但中国模型在追赶速度上并未落后。
SWE-Bench Pro 成绩对比
| 模型 | SWE-Bench Pro | API 成本(相对值) | 开源状态 |
|---|---|---|---|
| Claude Opus 4.7 | 基准线 | 1.0x | 闭源 |
| GPT-5.5 | 基准线 | 1.0x | 闭源 |
| DeepSeek V4 | ≈ 基准线 | ~0.33x | 开源 |
| Kimi K2.6 | ≈ 基准线 | ~0.33x | 开源权重 |
| Gemini 3.1 Pro | 接近基准 | 0.8x | 闭源 |
| Grok 4.3 | 略低 | 0.4x | 闭源 |
注:SWE-Bench Pro 是衡量 AI 在真实 GitHub 仓库中修复 issue 能力的基准,是目前最具实用价值的编程评测。
为什么这个追赶值得关注
1. 成本优势是结构性的
中国模型的成本优势不是暂时的价格战,而是源于:
- MoE 架构的成熟:DeepSeek V4 和 Kimi K2.6 均采用混合专家架构,激活参数量远低于总参数量
- 国产算力适配:DeepSeek 与华为昇腾的深度合作降低了推理成本
- 工程优化:Chinese models 在 token 效率上普遍优于美国同行
2. 开源 vs 闭源的范式差异
| 维度 | 中国开源模型 | 美国闭源模型 |
|---|---|---|
| 可审计性 | 完全可审计 | 黑盒 |
| 本地部署 | 支持 | 不支持 |
| 定制微调 | 自由微调 | 受限 |
| 供应链安全 | 自主可控 | 依赖美国供应商 |
| 社区生态 | 快速增长 | 封闭 |
3. 追赶速度在加快
前沿模型能力每 4 个月翻倍,中国模型的追赶速度并没有落后。从 DeepSeek V3 到 V4 的跨越只用了不到 6 个月,Kimi 从 K2.5 到 K2.6 的迭代同样迅速。
格局判断
对美国模型的影响
中国开源模型的追赶正在压缩美国模型的定价空间。DeepSeek V4 已经是 SOTA 模型中最便宜的(Opus 4.7 成本的 1/20),如果 Kimi K2.6 和其他中国模型也加入价格战,“高性能 + 低成本”可能成为中国模型的新标签。
对企业决策者的意义
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 代码修复/Agent 编程 | DeepSeek V4 / Kimi K2.6 | 性能打平,成本 1/3,可本地部署 |
| 创意写作/多模态 | Claude / GPT | 仍有优势 |
| 敏感数据场景 | DeepSeek / Kimi 本地部署 | 数据不出境 |
| 大规模 API 调用 | DeepSeek V4 | 性价比碾压 |
行动建议
- CTO/技术决策者:在编程和 Agent 场景优先测试 DeepSeek V4 和 Kimi K2.6,成本节约可能是显著的
- AI 工程师:中国开源模型的可微调性意味着你可以针对垂直场景做深度优化,这是闭源模型做不到的
- 投资者:关注中国 AI 模型公司的出海机会——“性价比 SOTA”是一个强大的全球叙事