2023 年初,闭源模型在 Chatbot Arena Text Arena 里领先开源模型 250 分。那是一个几乎不可逾越的鸿沟——你用 GPT-4 和用当时最好的开源模型,体验差距是肉眼可见的。
到 2026 年初,这个数字跌到了个位数。
LMSYS 昨天发布了一组数据,横跨三年、覆盖三个 Arena(Text、Code、Expert Prompt),回答了一个很多人关心的问题:开源模型到底追上来了没有?
答案基本是肯定的。但不是每个领域都一样。
Text Arena:闭源领先从 250 跌到个位数
这是最直观的一条曲线。2023 年初闭源模型领先 +250,到 2025 年初压缩到"低两位数",然后——注意这个时间点——DeepSeek R1 在 2025 年初短暂反超,开源模型拿到了 Arena 的历史性领先。
这个领先没有维持太久。闭源模型很快重新夺回第一,但差距已经不再是量级差异。今天回头看,2025 年那次反超像是一个分水岭:开源模型第一次证明自己在通用对话上可以和闭源打平手。
Code Arena:差距压缩得更快
Code Arena 的历史比 Text Arena 短,但差距缩小的速度更猛。闭源领先一度达到 +100 分,然后通过 2026 年春天的一轮密集压缩,今天维持在 +40 左右。
+40 是什么概念?在 Code Arena 的评分体系里,这个差距意味着闭源模型仍然有可感知的优势,但已经不是"用了就回不去"的程度。对于日常的代码补全、调试、重构任务,开源模型已经足够好用。
Expert Prompt:闭源还握着最后 40 分
Expert Prompt 是最难的 Arena,测的是模型在处理复杂、专业、需要深度推理的提示时的表现。这里闭源模型仍然保持 +40 分的领先。
LMSYS 的原话是"Expert prompts are the toughest challenge for open models"。这不是客套话。Expert Prompt 测的不是"能不能回答",而是"能不能在极端复杂的情境下保持稳定输出"。这块的差距反映的是闭源模型在训练数据质量、对齐工程和安全过滤上的长期积累。
但值得注意的一个细节:这个 +40 的领先也比 2025 年缩小了。差距在收窄,只是速度比 Text 和 Code 慢。
谁在推这个趋势
不用猜也知道主力是谁。
DeepSeek R1 在 2025 年初那次反超不是偶然——它用 MoE 架构和大幅降低的推理成本,把开源模型的性价比推到了一个新高度。Qwen 3.6 系列在 Intelligence Index 上的表现也证明,开源模型在综合能力上已经不再是被吊打的角色。
Kimi K2.6 在 SWE-bench 和 LiveBench 上的成绩(详见此前的分析)则是另一个佐证:开源权重模型在代码和推理任务上正在逼近闭源天花板。
但有一个现实
Arena 是众包投票,不是标准化 benchmark。它的价值在于反映真实用户的主观体验,而不是给出精确的分数排名。这意味着:
- 如果一个模型在某些场景下"看起来更聪明"(比如回复格式更整齐、语气更自然),Arena 分数会偏高
- 如果一个模型在某些专业任务上更强但日常体验一般,Arena 分数可能反映不出来
所以 LMSYS 的数据告诉我们的是"用户感知差距在缩小",不等于"所有场景下开源和闭源已经一样好"。这中间有区别。
对开发者的意义
如果你在做模型选型,这个数据至少说明一件事:开源模型的默认选项地位正在形成。
三年前,选择开源意味着接受明显更差的体验。今天,对于大部分非极端场景,开源模型的表现已经足够接近闭源,而成本和可控性的优势是实打实的。
但 Expert Prompt 那 +40 分的差距也提醒我们:如果你需要处理高度复杂、专业、低容错率的任务,闭源模型仍然有它的价值。
主要来源: