2026年4月AI模型排行榜：Anthropic登顶LMArena，GPT-5.5统治AA指数

结论先行

截至 2026 年 4 月底，全球主流 AI 模型排行榜呈现"两榜双雄"格局：LMArena（原 Chatbot Arena）的 Elo 排名中 Anthropic 占据榜首，Artificial Analysis 综合指数中 OpenAI 的 GPT-5.5 系列领跑。两份榜单分别反映真实用户偏好和标准化基准测试，合在一起才能看全。

LMArena Elo 排名：用户投票的"体感排行榜"

LMArena 基于全球用户匿名 A/B 对战投票，数据截至 4 月 24 日：

排名	模型	Elo 分数	厂商
1	Opus 4.7 (thinking)	1503	Anthropic
2	Claude Opus 4.6 (thinking)	1503	Anthropic
3	Claude Opus 4.6	1496	Anthropic
4	Opus 4.7	1494	Anthropic
5	Gemini 3.1 Pro Preview	1493	Google DeepMind
6	Muse Spark	1492	Meta AI
7	Gemini 3.0 Pro	1486	Google DeepMind
8	grok-4.20-beta1	1482	xAI
9	gpt-5.4-high	1481	OpenAI
10	grok-4.20-beta-reasoning	1479	xAI

关键信号：

Anthropic 在前四名中占据三席，thinking 模式显著提升了 Elo 分数。
Meta Muse Spark 作为 Meta 自 2025 年初以来首个重大模型发布，首次跻身前十（1492 分），与 Gemini 3.1 Pro 仅差 1 分。
OpenAI 的 gpt-5.4-high 仅列第 9，GPT-5.5 尚未出现在此榜单中（发布较晚，数据尚未收录）。

AA 综合指数：标准化基准的"硬实力排行榜"

Artificial Analysis 汇总编程、数学、科学、推理、智能体等 10 项标准化评测，数据截至 4 月 25 日：

排名	模型	分数	厂商
1	GPT-5.5 (xhigh)	60	OpenAI
2	GPT-5.5 (high)	59	OpenAI
3	Opus 4.7 (max)	57	Anthropic
4	Gemini 3.1 Pro Preview	57	Google DeepMind
5	GPT-5.4 (xhigh)	57	OpenAI
6	GPT-5.5 (medium)	57	OpenAI
7	Kimi K2.6	54	Moonshot AI
8	MiMo-V2.5-Pro	54	Xiaomi
9	GPT-5.3 Codex (xhigh)	54	OpenAI
10	Muse Spark	52	Meta AI

关键信号：

GPT-5.5 系列包揽前两名，前六席中占据四席。
中国模型 Kimi K2.6（月之暗面）以 54 分位列第 7，是前十中唯一的中国模型。
小米 MiMo-V2.5-Pro 以 54 分进入前十，硬件厂商的 AI 投入开始进入主流视野。

为什么两榜结果不同？

LMArena 的 Elo 反映的是用户偏好——谁的回答看起来更好用、更令人满意。AA 指数反映的是标准化基准跑分——谁在预定义的测试集上得分更高。

GPT-5.5 在 AA 指数中强势但在 LMArena 中排名靠后（数据尚未收录），可能因为：（1）发布仅数天，用户投票数据尚未积累；（2）GPT-5.5 的优势集中在长上下文和代理任务，这些在 LMArena 的 A/B 对战中不易体现。

Claude Opus 4.7 在两榜中都进入前列，说明其能力在客观基准和主观偏好中都得到了验证。

选择建议

追求综合基准最强：GPT-5.5 (xhigh)，AA 指数 60 分
追求用户体验最佳：Claude Opus 4.7 (thinking)，LMArena 1503 Elo
关注性价比：GPT-5.5 (medium) AA 57 分，价格低于 xhigh
关注中国模型：Kimi K2.6 以 54 分进入前十，是国产模型的最高排名
关注开源 / 半开源：Muse Spark（Meta）52 分，首次跻身前十

结论先行

LMArena Elo 排名：用户投票的"体感排行榜"

AA 综合指数：标准化基准的"硬实力排行榜"

为什么两榜结果不同？

选择建议

来源

Related

ACC：把 Agent 的几十轮工具调用编译成长上下文 QA，训练模型直接推理

RLVR 的信用分配难题：DelTA 用「判别器视角」重新审视 token 级奖励

MLLM 看人准吗？MM-OCEAN 发现 51% 的"正确评分"其实是在瞎猜