开源权重模型霸占 Pareto 前沿：13 席中 9 席被中国开源军团拿下

开源不再只是"便宜"——它开始赢

长期以来，"开源模型"的标签总是和"性价比""平替"绑定在一起。但在 2026 年 5 月的第一周，这个叙事正在被彻底颠覆。

Artificial Analysis 最新发布的数据显示：在 Intelligence vs. Price 的 Pareto 前沿上，13 个席位中有 9 个被开源权重模型占据。更值得注意的是，这个 Pareto 前沿不是由某一家公司主导的——而是由中国开源军团集体包揽。

当前 Pareto 前沿全景

模型	机构	Intelligence Index	类型	GDPval-AA
GPT-5.5	OpenAI	60	闭源	-
Gemini / Claude	Google/Anthropic	57	闭源	-
Kimi K2.6	Moonshot	54	开源权重	1484
MiMo V2.5 Pro	小米	54	开源权重	1578
DeepSeek V4 Pro	DeepSeek	52	开源权重	1554
GLM-5.1	智谱	~50	开源权重	1535
MiniMax M2.7	MiniMax	~49	开源权重	1514

关键观察：

Kimi K2.6 和 MiMo V2.5 Pro 并列 54 分，是开源权重的天花板
两者在 GDPval-AA（真实 Agent 工作负载）上的分数甚至超过部分闭源模型
DeepSeek V4 Pro 以 52 分紧随其后，且 API 价格仅为 GPT-5.5 的零头

一周内的爆炸性跃升

这条推文总结了过去一周的格局变化：

Open Weights Capabilities have Exploded in the Last Week!

Kimi K2.6 & MiMo V2.5 Pro: 54（1T MoE, up to 1M ctx） DeepSeek V4 Pro: 52（1.6T/49B） GPT-5.5: 60 Gemini/Claude: 57

也就是说，在短短一周内，三款中国开源模型同时冲进了 Intelligence Index 的前 10——这在一年前是不可想象的。

这意味着什么

1. 开源权重已经跨过"够用"的临界点

当开源模型在 Intelligence Index 上达到闭源模型的 90% 以上（54 vs 60），而价格仅为后者的 1/10 甚至更低时，"闭源溢价"正在变得难以辩护。

2. 中国模型形成了开源矩阵

不是单点突破，而是矩阵式包围：

维度	领先者	优势
综合智能	Kimi K2.6 / MiMo V2.5 Pro	并列 #54
Agent 能力	MiMo V2.5 Pro	GDPval-AA 1578
上下文长度	DeepSeek V4 Pro	1M+ context
编码能力	GLM-5.1	SWE-Bench 94-95% Opus 水平
价格	DeepSeek V4 Pro	API 七五折中

3. 闭源模型的护城河在哪里？

当开源模型在智能水平上逼近闭源模型时，闭源厂商的差异化必须转移到其他维度：

安全与合规：企业级 SLA、数据隐私
生态系统：工具链集成（Claude Code、GPT Engineer 等）
多模态：原生视觉/音频理解（MiMo V2.5 Pro 已具备）

行动建议

对于正在做模型选型的技术决策者：

如果预算敏感：DeepSeek V4 Pro（七五折中至 5 月 31 日）是当前最具性价比的选择
如果需要 Agent 能力：MiMo V2.5 Pro 在 GDPval-AA 上领先，MIT 许可证可自由商用
如果需要长上下文：Kimi K2.6 和 MiMo V2.5 Pro 都支持 up to 1M context
如果追求最新能力：闭源模型（GPT-5.5、Claude 5）仍有 5-6 分的 Intelligence 优势

开源权重模型不再是"将就"——在 Pareto 前沿上，它们正在成为"首选"。

开源不再只是"便宜"——它开始赢

当前 Pareto 前沿全景

一周内的爆炸性跃升

这意味着什么

1. 开源权重已经跨过"够用"的临界点

2. 中国模型形成了开源矩阵

3. 闭源模型的护城河在哪里？

行动建议

Related

A2UI、MCP Apps、AG-UI 怎么选：Agent UI 别先被协议名绕晕

Baseten 估值飙到 130 亿美元背后：开放模型推理栈到底值不值自己折腾

Codex Sites vs Claude Code Artifacts：一个想托管应用，一个想托管解释