核心结论
LMSYS Chatbot Arena 4 月 30 日最新排名显示,百度文心 5.1 Preview 以 1476 分 登上文本能力榜国内第一、全球前 15 的位置。这是当前全球 Top 15 中 唯一的国产模型,排位超过了 GPT-5.5 和 DeepSeek-V4-Pro。
与此同时,智谱 GLM-5.1 与 Kimi K2.6 在编程 Agent 场景中的实战体感评级已进入”过 entry 梯队”,与文心 5.1 形成国产模型的三足鼎立格局。
LMArena 文本榜最新格局
| 排名 | 模型 | 分数 | 厂商 | 备注 |
|---|---|---|---|---|
| 1-5 | GPT-5.5 等前沿模型 | 1500+ | OpenAI 等 | 全球领跑 |
| ~10 | 文心 5.1 Preview | 1476 | 百度 | 国产唯一 Top 15 |
| — | GPT-5.5 | <1476 | OpenAI | 被文心 5.1 超越 |
| — | DeepSeek-V4-Pro | <1476 | DeepSeek | 被文心 5.1 超越 |
文心 5.1 的关键突破在于纯文本对话质量——这在 LMArena 的众包盲评机制下是最难”刷”的指标,因为评价者是真实用户在不知情情况下对两个匿名模型的回答进行投票。
国产模型”三强”实战定位
从社区开发者的实际体感来看,当前国产模型已形成清晰的分工格局:
第一梯队(过 entry):
- GLM-5.1(智谱)— 编程 Agent 场景表现最强,但高并发 + 长上下文(70K+ token)下出现过乱码/复读问题,智谱已发布复盘
- Kimi K2.6(月之暗面)— 与 GLM-5.1 并列,Agent 能力突出
- 文心 5.1 Preview(百度)— 文本对话质量最强,LMArena 数据支撑
第二梯队(没过 entry):
- DeepSeek-V4-Pro、Qwen 3.6 Plus、腾讯混元 HY-3 等
这一分层说明:国产模型不再是”谁更好”的单一问题,而是”什么场景用什么模型”的选择问题——与 2012-2016 年智能手机市场的演化路径高度相似。
为什么这个排名值得注意
- LMArena 的可信度:不同于厂商自报的 benchmark,LMArena 基于真实用户盲评,难以操纵
- 纯文本 vs 多模态:在 2026 年多模态和 Agent 能力被大肆宣传的背景下,文心 5.1 证明纯文本对话质量仍然是一个独立的竞争维度
- 百度 AI 战略的拐点:文心系列长期以来被认为”大而不够精”,5.1 Preview 的表现说明百度在文本基础模型上找到了突破口
行动建议
- 中文长文本任务:文心 5.1 Preview 当前值得优先测试,尤其是对话质量和中文理解场景
- 编程 Agent 场景:GLM-5.1 和 Kimi K2.6 仍然是更成熟的选择,但需关注智谱的高并发 bug 修复进度
- 成本敏感场景:DeepSeek-V4-Pro 和 Qwen 3.6 Plus 的性价比优势仍然突出,不必盲目追求排名
LMArena 排名会持续更新,文心 5.1 能否在正式版中保持这一位置,还需要观察。但作为国产模型在全球权威榜单上的首次 Top 15 突破,这一信号已经足够明确。