开源权重模型霸占 Pareto 前沿:13 席中 9 席被中国开源军团拿下

开源权重模型霸占 Pareto 前沿:13 席中 9 席被中国开源军团拿下

开源不再只是”便宜”——它开始赢

长期以来,“开源模型”的标签总是和”性价比""平替”绑定在一起。但在 2026 年 5 月的第一周,这个叙事正在被彻底颠覆。

Artificial Analysis 最新发布的数据显示:在 Intelligence vs. Price 的 Pareto 前沿上,13 个席位中有 9 个被开源权重模型占据。更值得注意的是,这个 Pareto 前沿不是由某一家公司主导的——而是由中国开源军团集体包揽。

当前 Pareto 前沿全景

模型机构Intelligence Index类型GDPval-AA
GPT-5.5OpenAI60闭源-
Gemini / ClaudeGoogle/Anthropic57闭源-
Kimi K2.6Moonshot54开源权重1484
MiMo V2.5 Pro小米54开源权重1578
DeepSeek V4 ProDeepSeek52开源权重1554
GLM-5.1智谱~50开源权重1535
MiniMax M2.7MiniMax~49开源权重1514

关键观察

  • Kimi K2.6 和 MiMo V2.5 Pro 并列 54 分,是开源权重的天花板
  • 两者在 GDPval-AA(真实 Agent 工作负载)上的分数甚至超过部分闭源模型
  • DeepSeek V4 Pro 以 52 分紧随其后,且 API 价格仅为 GPT-5.5 的零头

一周内的爆炸性跃升

这条推文总结了过去一周的格局变化:

Open Weights Capabilities have Exploded in the Last Week!

Kimi K2.6 & MiMo V2.5 Pro: 54(1T MoE, up to 1M ctx) DeepSeek V4 Pro: 52(1.6T/49B) GPT-5.5: 60 Gemini/Claude: 57

也就是说,在短短一周内,三款中国开源模型同时冲进了 Intelligence Index 的前 10——这在一年前是不可想象的。

这意味着什么

1. 开源权重已经跨过”够用”的临界点

当开源模型在 Intelligence Index 上达到闭源模型的 90% 以上(54 vs 60),而价格仅为后者的 1/10 甚至更低时,“闭源溢价”正在变得难以辩护。

2. 中国模型形成了开源矩阵

不是单点突破,而是矩阵式包围:

维度领先者优势
综合智能Kimi K2.6 / MiMo V2.5 Pro并列 #54
Agent 能力MiMo V2.5 ProGDPval-AA 1578
上下文长度DeepSeek V4 Pro1M+ context
编码能力GLM-5.1SWE-Bench 94-95% Opus 水平
价格DeepSeek V4 ProAPI 七五折中

3. 闭源模型的护城河在哪里?

当开源模型在智能水平上逼近闭源模型时,闭源厂商的差异化必须转移到其他维度:

  • 安全与合规:企业级 SLA、数据隐私
  • 生态系统:工具链集成(Claude Code、GPT Engineer 等)
  • 多模态:原生视觉/音频理解(MiMo V2.5 Pro 已具备)

行动建议

对于正在做模型选型的技术决策者:

  • 如果预算敏感:DeepSeek V4 Pro(七五折中至 5 月 31 日)是当前最具性价比的选择
  • 如果需要 Agent 能力:MiMo V2.5 Pro 在 GDPval-AA 上领先,MIT 许可证可自由商用
  • 如果需要长上下文:Kimi K2.6 和 MiMo V2.5 Pro 都支持 up to 1M context
  • 如果追求最新能力:闭源模型(GPT-5.5、Claude 5)仍有 5-6 分的 Intelligence 优势

开源权重模型不再是”将就”——在 Pareto 前沿上,它们正在成为”首选”。