2026年5月LM Arena排行榜更新:文心5.1稳住国产第一,DeepSeek V4 Pro升至23位

2026年5月LM Arena排行榜更新:文心5.1稳住国产第一,DeepSeek V4 Pro升至23位

排行榜结果速览

2026 年 5 月初,LM Arena(大模型竞技场)更新了文本模型排行榜。最新数据揭示了一个值得关注的趋势:国产模型在全球竞技场中的集体崛起

全球 Top 25 关键排名

全球排名模型厂商国别较上月变化
13文心 5.1 Preview百度🇨🇳保持
16GPT-5.5OpenAI🇺🇸
22mimo-v2.5-pro小米🇨🇳
23DeepSeek V4 ProDeepSeek🇨🇳

数据解读

文心 5.1 Preview 守住国产第一:在全球第 13 位的位置上,百度文心 5.1 Preview 依然是排名最高的国产模型。这个位置意味着它在与全球顶级模型的盲测对比中,胜率稳定在前 15%。

GPT-5.5 不再”稳稳接住”:排名第 16 位的 GPT-5.5 出现了排名下滑。评测者特别指出”不再稳稳接住我”——这个表述暗示 OpenAI 的旗舰模型在面对国产模型的追赶时,优势正在缩小。

小米 mimo 和 DeepSeek 的上升势头:小米 mimo-v2.5-pro 达到第 22 位,DeepSeek V4 Pro 升至第 23 位。两个模型都超过了 GPT-5.5 的位置,这在半年前是难以想象的。

格局判断

国产模型:从”追赶”到”并跑”

当前国产模型在 LM Arena 的分布呈现一个有趣的梯队结构:

全球第 10-15 位:文心 5.1 Preview(国产天花板)
全球第 20-25 位:mimo-v2.5-pro、DeepSeek V4 Pro(追赶集团)
全球第 25-35 位:GLM-5.1、Kimi K2.6、Qwen 3.6(主力集团)

与半年前相比,国产模型整体向上移动了 5-10 个位置。这不是单个模型的突破,而是系统性进步

美国模型:优势在缩小

GPT-5.5 的排名下滑是一个标志性信号。它不意味着 OpenAI 的技术在退步,而是说明:

  1. 国产模型的进步速度超过了美国模型的迭代速度
  2. LM Arena 的众包评测方式更偏好”有特色”而非”全面平庸”的模型
  3. 价格因素开始影响用户投票行为——性价比高的模型获得更多使用量和投票

百度 Create 大会前瞻

根据社区信息,百度计划在 5 月的 Create 大会上发布更多关于文心模型的重磅更新。结合当前文心 5.1 Preview 的排名表现,市场有以下预期:

预期内容可能性影响
文心 5.1 正式版巩固全球前 15
文心 5.5 Preview冲击全球前 10
新定价策略提升市场竞争力
生态合作计划扩大应用场景

如果百度在 Create 大会上发布文心 5.5 Preview,LM Arena 的排名格局可能会被再次改写。

行动建议

对开发者

  • 追求最高质量:文心 5.1 Preview 目前是全球第 13、国产第 1,适合对质量要求最高的场景
  • 追求性价比:DeepSeek V4 Pro(第 23 位)配合 75% API 折扣,是目前最具性价比的选择
  • 移动端场景:小米 mimo-v2.5-pro(第 22 位)在端侧部署方面有天然优势

对技术决策者

国产模型在 LM Arena 的集体上升意味着一个战略变化:“只用美国模型”不再是最优解

决策维度美国模型国产模型
绝对性能仍有领先优势差距快速缩小
价格较高显著更低
合规风险存在
本地化支持有限全面

对于中国市场的业务,国产模型在合规、成本和本地化方面的优势,已经可以弥补性能上的微小差距。

关键观察

5 月的 LM Arena 排行榜传递了一个明确信号:AI 模型的全球竞争格局正在从”美国主导”转向”多极竞争”

当国产模型占据全球 Top 25 中的 3 个席位,且排名持续上升时,“哪个模型最好”这个问题的答案已经不再是唯一的。