开源不再只是”便宜”——它开始赢
长期以来,“开源模型”的标签总是和”性价比""平替”绑定在一起。但在 2026 年 5 月的第一周,这个叙事正在被彻底颠覆。
Artificial Analysis 最新发布的数据显示:在 Intelligence vs. Price 的 Pareto 前沿上,13 个席位中有 9 个被开源权重模型占据。更值得注意的是,这个 Pareto 前沿不是由某一家公司主导的——而是由中国开源军团集体包揽。
当前 Pareto 前沿全景
| 模型 | 机构 | Intelligence Index | 类型 | GDPval-AA |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | 60 | 闭源 | - |
| Gemini / Claude | Google/Anthropic | 57 | 闭源 | - |
| Kimi K2.6 | Moonshot | 54 | 开源权重 | 1484 |
| MiMo V2.5 Pro | 小米 | 54 | 开源权重 | 1578 |
| DeepSeek V4 Pro | DeepSeek | 52 | 开源权重 | 1554 |
| GLM-5.1 | 智谱 | ~50 | 开源权重 | 1535 |
| MiniMax M2.7 | MiniMax | ~49 | 开源权重 | 1514 |
关键观察:
- Kimi K2.6 和 MiMo V2.5 Pro 并列 54 分,是开源权重的天花板
- 两者在 GDPval-AA(真实 Agent 工作负载)上的分数甚至超过部分闭源模型
- DeepSeek V4 Pro 以 52 分紧随其后,且 API 价格仅为 GPT-5.5 的零头
一周内的爆炸性跃升
这条推文总结了过去一周的格局变化:
Open Weights Capabilities have Exploded in the Last Week!
Kimi K2.6 & MiMo V2.5 Pro: 54(1T MoE, up to 1M ctx) DeepSeek V4 Pro: 52(1.6T/49B) GPT-5.5: 60 Gemini/Claude: 57
也就是说,在短短一周内,三款中国开源模型同时冲进了 Intelligence Index 的前 10——这在一年前是不可想象的。
这意味着什么
1. 开源权重已经跨过”够用”的临界点
当开源模型在 Intelligence Index 上达到闭源模型的 90% 以上(54 vs 60),而价格仅为后者的 1/10 甚至更低时,“闭源溢价”正在变得难以辩护。
2. 中国模型形成了开源矩阵
不是单点突破,而是矩阵式包围:
| 维度 | 领先者 | 优势 |
|---|---|---|
| 综合智能 | Kimi K2.6 / MiMo V2.5 Pro | 并列 #54 |
| Agent 能力 | MiMo V2.5 Pro | GDPval-AA 1578 |
| 上下文长度 | DeepSeek V4 Pro | 1M+ context |
| 编码能力 | GLM-5.1 | SWE-Bench 94-95% Opus 水平 |
| 价格 | DeepSeek V4 Pro | API 七五折中 |
3. 闭源模型的护城河在哪里?
当开源模型在智能水平上逼近闭源模型时,闭源厂商的差异化必须转移到其他维度:
- 安全与合规:企业级 SLA、数据隐私
- 生态系统:工具链集成(Claude Code、GPT Engineer 等)
- 多模态:原生视觉/音频理解(MiMo V2.5 Pro 已具备)
行动建议
对于正在做模型选型的技术决策者:
- 如果预算敏感:DeepSeek V4 Pro(七五折中至 5 月 31 日)是当前最具性价比的选择
- 如果需要 Agent 能力:MiMo V2.5 Pro 在 GDPval-AA 上领先,MIT 许可证可自由商用
- 如果需要长上下文:Kimi K2.6 和 MiMo V2.5 Pro 都支持 up to 1M context
- 如果追求最新能力:闭源模型(GPT-5.5、Claude 5)仍有 5-6 分的 Intelligence 优势
开源权重模型不再是”将就”——在 Pareto 前沿上,它们正在成为”首选”。