开源模型 Intelligence Index 逼近闭源：6 分之差意味着什么？

核心信号

最新一期的 Intelligence Index 数据揭示了一个被低估的趋势：中国开源模型与全球闭源旗舰的能力差距正在快速收敛。

模型	Intelligence Index	开源状态	价格定位
GPT-5.5	60	闭源	$5/$30 per M
Gemini 3 / Claude	57	闭源	$3.50/$15 per M
Kimi K2.6	54	开源	~$1.70/$3 per M
MiMo V2.5 Pro	54	开源	MIT 许可
DeepSeek V4 Pro	52	开源	$2.20/$3.48 per M
GLM-5.1	~50	开源	订阅制
MiniMax M2.7	~49	开源	低价

GPT-5.5 与 Kimi K2.6 的分差只有 6 分。考虑到 Kimi K2.6 的 API 价格只有 GPT-5.5 的 1/10，这个性价比曲线已经陡峭到足以改变大多数企业的模型选型决策。

Intelligence Index 的设计初衷是综合评估模型在真实场景中的能力——不是死记硬背 benchmark，而是覆盖推理、代码、指令遵循、长上下文等多个维度的加权分数。

6 分的差距意味着什么？

在 80% 的日常开发场景中，用户感知不到区别。

一位在 VEX 上分享”穷鬼 AI 套餐”的开发者说得很直接：

“写代码用 DeepSeek V4 Flash，免费额度够日常用。需要推理能力的时候切 Pro，按量计费，一个月用不了几块钱。”

这不是理论上的”够用”，而是真实生产环境中的选择。当 Kimi K2.6 在 LiveBench（动态防作弊评测）中击败 Claude Opus 4.7 时，闭源模型的”能力护城河”叙事就开始瓦解了。

回顾 Intelligence Index 的变化轨迹：

2025 Q2: GPT-5.0 (50) vs DeepSeek V3 (38) → 差 12 分
2025 Q4: GPT-5.2 (55) vs DeepSeek V4 (45) → 差 10 分
2026 Q1: GPT-5.5 (60) vs Kimi K2.6 (54) → 差 6 分

追赶速度在加速。每半年的差距缩小 2-4 分，按照这个速率，到 2026 年底开源模型的 Intelligence Index 可能追平当前的 GPT-5.5 水平。

但这不是一个简单的”参数越多越好”的故事。Kimi K2.6 和 MiMo V2.5 Pro 都采用了 MoE（混合专家）架构，在总参数量达到万亿级别的同时，激活参数量控制在 50B 左右。这意味着推理成本可以大幅降低，而能力不打折扣。

美国 CAISI 机构的评测报告指出 DeepSeek V4 Pro 的综合能力”落后前沿约 8 个月”。这个判断在 Intelligence Index 上得到了部分印证——52 分确实低于 60 分。

但”8 个月差距”的解读需要放在完整语境中：

一位开发者的总结很精准：

“参数不差，跑分不差，那差距从哪里来？最大的差距应该是实战。但如果你的场景不需要最前沿的 100% 能力，那 92% 的能力 + 1/10 的价格，就是更好的选择。“

Intelligence Index 的数据正在改写一个基本假设：闭源模型的能力优势是持久的。

当开源模型以 6 分之差逼近闭源旗舰，同时价格只有 1/5 到 1/10 时，市场竞争的逻辑从”谁最强”变成了”谁最适合”。

这个转变的连锁反应：

如果你在评估模型迁移：先拿 Kimi K2.6 或 DeepSeek V4 Pro 在 20% 的真实业务场景中做 A/B 测试，Intelligence Index 的 6 分差距在日常场景中很可能感知不到
如果你在做模型采购决策：不要只看 Intelligence Index 的绝对分数，计算”单位 Intelligence 成本”——Kimi K2.6 的每分成本约 $0.055/M token，GPT-5.5 约 $0.50/M token，差了 9 倍
如果你在开发 Agent 应用：MoE 架构的开源模型在 Agent 场景中的性价比优势更加突出，因为 Agent 通常需要大量 token 消耗，单位成本的影响被放大了