排行榜结果速览
2026 年 5 月初,LM Arena(大模型竞技场)更新了文本模型排行榜。最新数据揭示了一个值得关注的趋势:国产模型在全球竞技场中的集体崛起。
全球 Top 25 关键排名
| 全球排名 | 模型 | 厂商 | 国别 | 较上月变化 |
|---|---|---|---|---|
| 13 | 文心 5.1 Preview | 百度 | 🇨🇳 | 保持 |
| 16 | GPT-5.5 | OpenAI | 🇺🇸 | ↓ |
| 22 | mimo-v2.5-pro | 小米 | 🇨🇳 | ↑ |
| 23 | DeepSeek V4 Pro | DeepSeek | 🇨🇳 | ↑ |
数据解读
文心 5.1 Preview 守住国产第一:在全球第 13 位的位置上,百度文心 5.1 Preview 依然是排名最高的国产模型。这个位置意味着它在与全球顶级模型的盲测对比中,胜率稳定在前 15%。
GPT-5.5 不再”稳稳接住”:排名第 16 位的 GPT-5.5 出现了排名下滑。评测者特别指出”不再稳稳接住我”——这个表述暗示 OpenAI 的旗舰模型在面对国产模型的追赶时,优势正在缩小。
小米 mimo 和 DeepSeek 的上升势头:小米 mimo-v2.5-pro 达到第 22 位,DeepSeek V4 Pro 升至第 23 位。两个模型都超过了 GPT-5.5 的位置,这在半年前是难以想象的。
格局判断
国产模型:从”追赶”到”并跑”
当前国产模型在 LM Arena 的分布呈现一个有趣的梯队结构:
全球第 10-15 位:文心 5.1 Preview(国产天花板)
全球第 20-25 位:mimo-v2.5-pro、DeepSeek V4 Pro(追赶集团)
全球第 25-35 位:GLM-5.1、Kimi K2.6、Qwen 3.6(主力集团)
与半年前相比,国产模型整体向上移动了 5-10 个位置。这不是单个模型的突破,而是系统性进步。
美国模型:优势在缩小
GPT-5.5 的排名下滑是一个标志性信号。它不意味着 OpenAI 的技术在退步,而是说明:
- 国产模型的进步速度超过了美国模型的迭代速度
- LM Arena 的众包评测方式更偏好”有特色”而非”全面平庸”的模型
- 价格因素开始影响用户投票行为——性价比高的模型获得更多使用量和投票
百度 Create 大会前瞻
根据社区信息,百度计划在 5 月的 Create 大会上发布更多关于文心模型的重磅更新。结合当前文心 5.1 Preview 的排名表现,市场有以下预期:
| 预期内容 | 可能性 | 影响 |
|---|---|---|
| 文心 5.1 正式版 | 高 | 巩固全球前 15 |
| 文心 5.5 Preview | 中 | 冲击全球前 10 |
| 新定价策略 | 高 | 提升市场竞争力 |
| 生态合作计划 | 中 | 扩大应用场景 |
如果百度在 Create 大会上发布文心 5.5 Preview,LM Arena 的排名格局可能会被再次改写。
行动建议
对开发者
- 追求最高质量:文心 5.1 Preview 目前是全球第 13、国产第 1,适合对质量要求最高的场景
- 追求性价比:DeepSeek V4 Pro(第 23 位)配合 75% API 折扣,是目前最具性价比的选择
- 移动端场景:小米 mimo-v2.5-pro(第 22 位)在端侧部署方面有天然优势
对技术决策者
国产模型在 LM Arena 的集体上升意味着一个战略变化:“只用美国模型”不再是最优解。
| 决策维度 | 美国模型 | 国产模型 |
|---|---|---|
| 绝对性能 | 仍有领先优势 | 差距快速缩小 |
| 价格 | 较高 | 显著更低 |
| 合规风险 | 存在 | 无 |
| 本地化支持 | 有限 | 全面 |
对于中国市场的业务,国产模型在合规、成本和本地化方面的优势,已经可以弥补性能上的微小差距。
关键观察
5 月的 LM Arena 排行榜传递了一个明确信号:AI 模型的全球竞争格局正在从”美国主导”转向”多极竞争”。
当国产模型占据全球 Top 25 中的 3 个席位,且排名持续上升时,“哪个模型最好”这个问题的答案已经不再是唯一的。