中国开源模型 SWE-Bench 追平 Claude/GPT：性能打平，成本只要三分之一

核心结论

“中国 AI 落后两年”——这个说法在 2026 年 5 月已经不再成立。

State of AI May 2026 报告披露了一个被严重低估的事实：DeepSeek V4 和 Kimi K2.6 等中国开源模型在 SWE-Bench Pro 上的得分已经追平 Claude Opus 4.7 和 GPT-5.5，而 API 成本仅为后者的三分之一。 这不是”接近”，是”打平”。更关键的是，前沿模型的网络攻击能力每 4 个月翻倍，但中国模型在追赶速度上并未落后。

SWE-Bench Pro 成绩对比

模型	SWE-Bench Pro	API 成本（相对值）	开源状态
Claude Opus 4.7	基准线	1.0x	闭源
GPT-5.5	基准线	1.0x	闭源
DeepSeek V4	≈ 基准线	~0.33x	开源
Kimi K2.6	≈ 基准线	~0.33x	开源权重
Gemini 3.1 Pro	接近基准	0.8x	闭源
Grok 4.3	略低	0.4x	闭源

注：SWE-Bench Pro 是衡量 AI 在真实 GitHub 仓库中修复 issue 能力的基准，是目前最具实用价值的编程评测。

为什么这个追赶值得关注

1. 成本优势是结构性的

中国模型的成本优势不是暂时的价格战，而是源于：

MoE 架构的成熟：DeepSeek V4 和 Kimi K2.6 均采用混合专家架构，激活参数量远低于总参数量
国产算力适配：DeepSeek 与华为昇腾的深度合作降低了推理成本
工程优化：Chinese models 在 token 效率上普遍优于美国同行

2. 开源 vs 闭源的范式差异

维度	中国开源模型	美国闭源模型
可审计性	完全可审计	黑盒
本地部署	支持	不支持
定制微调	自由微调	受限
供应链安全	自主可控	依赖美国供应商
社区生态	快速增长	封闭

3. 追赶速度在加快

前沿模型能力每 4 个月翻倍，中国模型的追赶速度并没有落后。从 DeepSeek V3 到 V4 的跨越只用了不到 6 个月，Kimi 从 K2.5 到 K2.6 的迭代同样迅速。

格局判断

对美国模型的影响

中国开源模型的追赶正在压缩美国模型的定价空间。DeepSeek V4 已经是 SOTA 模型中最便宜的（Opus 4.7 成本的 1/20），如果 Kimi K2.6 和其他中国模型也加入价格战，“高性能 + 低成本”可能成为中国模型的新标签。

对企业决策者的意义

场景	推荐方案	理由
代码修复/Agent 编程	DeepSeek V4 / Kimi K2.6	性能打平，成本 1/3，可本地部署
创意写作/多模态	Claude / GPT	仍有优势
敏感数据场景	DeepSeek / Kimi 本地部署	数据不出境
大规模 API 调用	DeepSeek V4	性价比碾压

行动建议

CTO/技术决策者：在编程和 Agent 场景优先测试 DeepSeek V4 和 Kimi K2.6，成本节约可能是显著的
AI 工程师：中国开源模型的可微调性意味着你可以针对垂直场景做深度优化，这是闭源模型做不到的
投资者：关注中国 AI 模型公司的出海机会——“性价比 SOTA”是一个强大的全球叙事