C
ChaoBro

中国开源模型 SWE-Bench 追平 Claude/GPT:性能打平,成本只要三分之一

中国开源模型 SWE-Bench 追平 Claude/GPT:性能打平,成本只要三分之一

核心结论

“中国 AI 落后两年”——这个说法在 2026 年 5 月已经不再成立。

State of AI May 2026 报告披露了一个被严重低估的事实:DeepSeek V4 和 Kimi K2.6 等中国开源模型在 SWE-Bench Pro 上的得分已经追平 Claude Opus 4.7 和 GPT-5.5,而 API 成本仅为后者的三分之一。 这不是”接近”,是”打平”。更关键的是,前沿模型的网络攻击能力每 4 个月翻倍,但中国模型在追赶速度上并未落后。

SWE-Bench Pro 成绩对比

模型SWE-Bench ProAPI 成本(相对值)开源状态
Claude Opus 4.7基准线1.0x闭源
GPT-5.5基准线1.0x闭源
DeepSeek V4≈ 基准线~0.33x开源
Kimi K2.6≈ 基准线~0.33x开源权重
Gemini 3.1 Pro接近基准0.8x闭源
Grok 4.3略低0.4x闭源

注:SWE-Bench Pro 是衡量 AI 在真实 GitHub 仓库中修复 issue 能力的基准,是目前最具实用价值的编程评测。

为什么这个追赶值得关注

1. 成本优势是结构性的

中国模型的成本优势不是暂时的价格战,而是源于:

  • MoE 架构的成熟:DeepSeek V4 和 Kimi K2.6 均采用混合专家架构,激活参数量远低于总参数量
  • 国产算力适配:DeepSeek 与华为昇腾的深度合作降低了推理成本
  • 工程优化:Chinese models 在 token 效率上普遍优于美国同行

2. 开源 vs 闭源的范式差异

维度中国开源模型美国闭源模型
可审计性完全可审计黑盒
本地部署支持不支持
定制微调自由微调受限
供应链安全自主可控依赖美国供应商
社区生态快速增长封闭

3. 追赶速度在加快

前沿模型能力每 4 个月翻倍,中国模型的追赶速度并没有落后。从 DeepSeek V3 到 V4 的跨越只用了不到 6 个月,Kimi 从 K2.5 到 K2.6 的迭代同样迅速。

格局判断

对美国模型的影响

中国开源模型的追赶正在压缩美国模型的定价空间。DeepSeek V4 已经是 SOTA 模型中最便宜的(Opus 4.7 成本的 1/20),如果 Kimi K2.6 和其他中国模型也加入价格战,“高性能 + 低成本”可能成为中国模型的新标签

对企业决策者的意义

场景推荐方案理由
代码修复/Agent 编程DeepSeek V4 / Kimi K2.6性能打平,成本 1/3,可本地部署
创意写作/多模态Claude / GPT仍有优势
敏感数据场景DeepSeek / Kimi 本地部署数据不出境
大规模 API 调用DeepSeek V4性价比碾压

行动建议

  • CTO/技术决策者:在编程和 Agent 场景优先测试 DeepSeek V4 和 Kimi K2.6,成本节约可能是显著的
  • AI 工程师:中国开源模型的可微调性意味着你可以针对垂直场景做深度优化,这是闭源模型做不到的
  • 投资者:关注中国 AI 模型公司的出海机会——“性价比 SOTA”是一个强大的全球叙事