C
ChaoBro

2026年4月AI模型排行榜:Anthropic登顶LMArena,GPT-5.5统治AA指数

2026年4月AI模型排行榜:Anthropic登顶LMArena,GPT-5.5统治AA指数

结论先行

截至 2026 年 4 月底,全球主流 AI 模型排行榜呈现"两榜双雄"格局:LMArena(原 Chatbot Arena)的 Elo 排名中 Anthropic 占据榜首,Artificial Analysis 综合指数中 OpenAI 的 GPT-5.5 系列领跑。两份榜单分别反映真实用户偏好和标准化基准测试,合在一起才能看全。

LMArena Elo 排名:用户投票的"体感排行榜"

LMArena 基于全球用户匿名 A/B 对战投票,数据截至 4 月 24 日:

排名 模型 Elo 分数 厂商
1 Opus 4.7 (thinking) 1503 Anthropic
2 Claude Opus 4.6 (thinking) 1503 Anthropic
3 Claude Opus 4.6 1496 Anthropic
4 Opus 4.7 1494 Anthropic
5 Gemini 3.1 Pro Preview 1493 Google DeepMind
6 Muse Spark 1492 Meta AI
7 Gemini 3.0 Pro 1486 Google DeepMind
8 grok-4.20-beta1 1482 xAI
9 gpt-5.4-high 1481 OpenAI
10 grok-4.20-beta-reasoning 1479 xAI

关键信号

  • Anthropic 在前四名中占据三席,thinking 模式显著提升了 Elo 分数。
  • Meta Muse Spark 作为 Meta 自 2025 年初以来首个重大模型发布,首次跻身前十(1492 分),与 Gemini 3.1 Pro 仅差 1 分。
  • OpenAI 的 gpt-5.4-high 仅列第 9,GPT-5.5 尚未出现在此榜单中(发布较晚,数据尚未收录)。

AA 综合指数:标准化基准的"硬实力排行榜"

Artificial Analysis 汇总编程、数学、科学、推理、智能体等 10 项标准化评测,数据截至 4 月 25 日:

排名 模型 分数 厂商
1 GPT-5.5 (xhigh) 60 OpenAI
2 GPT-5.5 (high) 59 OpenAI
3 Opus 4.7 (max) 57 Anthropic
4 Gemini 3.1 Pro Preview 57 Google DeepMind
5 GPT-5.4 (xhigh) 57 OpenAI
6 GPT-5.5 (medium) 57 OpenAI
7 Kimi K2.6 54 Moonshot AI
8 MiMo-V2.5-Pro 54 Xiaomi
9 GPT-5.3 Codex (xhigh) 54 OpenAI
10 Muse Spark 52 Meta AI

关键信号

  • GPT-5.5 系列包揽前两名,前六席中占据四席。
  • 中国模型 Kimi K2.6(月之暗面)以 54 分位列第 7,是前十中唯一的中国模型。
  • 小米 MiMo-V2.5-Pro 以 54 分进入前十,硬件厂商的 AI 投入开始进入主流视野。

为什么两榜结果不同?

LMArena 的 Elo 反映的是用户偏好——谁的回答看起来更好用、更令人满意。AA 指数反映的是标准化基准跑分——谁在预定义的测试集上得分更高。

GPT-5.5 在 AA 指数中强势但在 LMArena 中排名靠后(数据尚未收录),可能因为:(1)发布仅数天,用户投票数据尚未积累;(2)GPT-5.5 的优势集中在长上下文和代理任务,这些在 LMArena 的 A/B 对战中不易体现。

Claude Opus 4.7 在两榜中都进入前列,说明其能力在客观基准和主观偏好中都得到了验证。

选择建议

  • 追求综合基准最强:GPT-5.5 (xhigh),AA 指数 60 分
  • 追求用户体验最佳:Claude Opus 4.7 (thinking),LMArena 1503 Elo
  • 关注性价比:GPT-5.5 (medium) AA 57 分,价格低于 xhigh
  • 关注中国模型:Kimi K2.6 以 54 分进入前十,是国产模型的最高排名
  • 关注开源 / 半开源:Muse Spark(Meta)52 分,首次跻身前十

来源