LMSYS 三年 Arena 数据复盘：开源模型正在抹平与闭源的差距

2023 年初，闭源模型在 Chatbot Arena Text Arena 里领先开源模型 250 分。那是一个几乎不可逾越的鸿沟——你用 GPT-4 和用当时最好的开源模型，体验差距是肉眼可见的。

到 2026 年初，这个数字跌到了个位数。

LMSYS 昨天发布了一组数据，横跨三年、覆盖三个 Arena（Text、Code、Expert Prompt），回答了一个很多人关心的问题：开源模型到底追上来了没有？

答案基本是肯定的。但不是每个领域都一样。

Text Arena：闭源领先从 250 跌到个位数

这是最直观的一条曲线。2023 年初闭源模型领先 +250，到 2025 年初压缩到"低两位数"，然后——注意这个时间点——DeepSeek R1 在 2025 年初短暂反超，开源模型拿到了 Arena 的历史性领先。

这个领先没有维持太久。闭源模型很快重新夺回第一，但差距已经不再是量级差异。今天回头看，2025 年那次反超像是一个分水岭：开源模型第一次证明自己在通用对话上可以和闭源打平手。

Code Arena：差距压缩得更快

Code Arena 的历史比 Text Arena 短，但差距缩小的速度更猛。闭源领先一度达到 +100 分，然后通过 2026 年春天的一轮密集压缩，今天维持在 +40 左右。

+40 是什么概念？在 Code Arena 的评分体系里，这个差距意味着闭源模型仍然有可感知的优势，但已经不是"用了就回不去"的程度。对于日常的代码补全、调试、重构任务，开源模型已经足够好用。

Expert Prompt：闭源还握着最后 40 分

Expert Prompt 是最难的 Arena，测的是模型在处理复杂、专业、需要深度推理的提示时的表现。这里闭源模型仍然保持 +40 分的领先。

LMSYS 的原话是"Expert prompts are the toughest challenge for open models"。这不是客套话。Expert Prompt 测的不是"能不能回答"，而是"能不能在极端复杂的情境下保持稳定输出"。这块的差距反映的是闭源模型在训练数据质量、对齐工程和安全过滤上的长期积累。

但值得注意的一个细节：这个 +40 的领先也比 2025 年缩小了。差距在收窄，只是速度比 Text 和 Code 慢。

谁在推这个趋势

不用猜也知道主力是谁。

DeepSeek R1 在 2025 年初那次反超不是偶然——它用 MoE 架构和大幅降低的推理成本，把开源模型的性价比推到了一个新高度。Qwen 3.6 系列在 Intelligence Index 上的表现也证明，开源模型在综合能力上已经不再是被吊打的角色。

Kimi K2.6 在 SWE-bench 和 LiveBench 上的成绩（详见此前的分析）则是另一个佐证：开源权重模型在代码和推理任务上正在逼近闭源天花板。

但有一个现实

Arena 是众包投票，不是标准化 benchmark。它的价值在于反映真实用户的主观体验，而不是给出精确的分数排名。这意味着：

如果一个模型在某些场景下"看起来更聪明"（比如回复格式更整齐、语气更自然），Arena 分数会偏高
如果一个模型在某些专业任务上更强但日常体验一般，Arena 分数可能反映不出来

所以 LMSYS 的数据告诉我们的是"用户感知差距在缩小"，不等于"所有场景下开源和闭源已经一样好"。这中间有区别。

对开发者的意义

如果你在做模型选型，这个数据至少说明一件事：开源模型的默认选项地位正在形成。

三年前，选择开源意味着接受明显更差的体验。今天，对于大部分非极端场景，开源模型的表现已经足够接近闭源，而成本和可控性的优势是实打实的。

但 Expert Prompt 那 +40 分的差距也提醒我们：如果你需要处理高度复杂、专业、低容错率的任务，闭源模型仍然有它的价值。

主要来源：

Text Arena：闭源领先从 250 跌到个位数

Code Arena：差距压缩得更快

Expert Prompt：闭源还握着最后 40 分

谁在推这个趋势

但有一个现实

对开发者的意义

相关内容

Vibe Coding 实战排名：Kimi K2.6 领先，GLM-5.1 紧跟，国产模型各擅胜场

Scale AI 发布 SWE Atlas 重构榜单：代码重构能力成为 Agent 新战场，Claude Code + Opus 4.7 登顶

Qwen3.6-27B + RTX 3090：消费级 GPU 上的前沿 AI 研究能力正在成为现实