LLMStats TrueSkill 复合排行榜：当单一基准不再可信，AI 模型评测正在走向"跨基准共识"

为什么单一基准不再可信

2026 年的 AI 模型评测面临一个尴尬的现实：几乎任何单一基准都可以通过针对性训练被"刷"上去。

在 MMLU 上考高分？在训练数据中加入类似的多选题即可
SWE-Bench 排名高？用 SWE-Bench 的 issue 做微调
HumanEval 满分？这已经是 2024 年就能做到的事

当每个基准都可以被优化，单一基准的排名就失去了参考价值。这正是 LLMStats 推出 TrueSkill 复合评分的出发点。

TrueSkill 复合评分：跨基准的贝叶斯共识

LLMStats 的 TrueSkill 复合评分采用了一个简洁但有效的方法论：

TrueSkill Score = μ − 3σ

其中：

μ（均值）：模型在多个基准测试中的平均表现
σ（标准差）：模型在不同基准上表现的波动程度
−3σ：保守估计，取均值减去 3 倍标准差（覆盖 99.7% 的置信区间）

这个公式的核心逻辑是：一个模型如果只在某个基准上表现好，但在其他基准上波动很大，那么它的 TrueSkill 分数会被 σ 惩罚。只有在所有基准上都能稳定表现的模型，才能获得高 TrueSkill 分数。

纳入的基准测试

TrueSkill 复合评分跨以下基准（截至 2026 年 5 月）：

基准	评测维度	权重
GPQA	研究生级科学推理	高
SWE-Bench	软件工程能力	高
LiveCodeBench	实时编码能力	高
MATH	数学推理	中
MMLU-Pro	多领域知识	中
Arena Hard	对话能力	中
HumanEval	代码生成（基础）	低
Big-Bench Hard	综合推理	低

为什么 GPQA 和 SWE-Bench 权重最高？

GPQA（Graduate-Level Google-Proof Q&A）是目前最难被"刷"的基准之一——问题来自博士级考试，需要真正的学科理解而非模式匹配。SWE-Bench 评估的是模型在真实 GitHub issue 上的表现，比合成代码任务更接近实际开发场景。

2026 年 5 月 TrueSkill 排行榜快照

根据 LLMStats 最新数据（2026 年 5 月 3 日更新），以下是部分模型的 TrueSkill 复合评分排名：

排名	模型	TrueSkill Score	主要优势	主要短板
1	Claude Opus 4.7	87.2	SWE-Bench, GPQA	推理速度
2	GPT-5.5	84.5	多基准均衡, 推理速度	SWE-Bench 复杂 issue
3	Claude 5 "Mythos" (Beta)	82.1	安全漏洞发现, 推理	未正式发布
4	DeepSeek V4 Pro	79.8	SWE-Bench, 性价比	中文→英文跨语言能力
5	Gemini 3.1 Pro	78.3	多模态, 数学推理	SWE-Bench
6	Grok 4.3	75.6	实时信息检索	GPQA
7	Qwen3.6-Max	73.2	中文任务, 长上下文	英文科学推理
8	文心 5.1 Preview	71.5	中文推理, 多模态	英文编码
9	Kimi K2.6	70.8	长上下文, 中文	GPQA
10	Ling-2.6-1T	68.4	中文长文档	代码能力

TrueSkill vs 传统排行榜

维度	LM Arena (投票制)	TrueSkill (复合评分)
评测方式	人类投票（ pairwise 比较）	多基准自动化测试
主观性	高（人类偏好影响）	低（客观基准分数）
可重复性	低（投票结果随时间波动）	高（基准固定可复测）
刷榜难度	中（需要影响用户投票行为）	高（需同时提升多个维度）
置信区间	无（只有排名）	有（μ ± σ）
更新频率	每周	每日

这种方法的局限性

TrueSkill 复合评分并非完美：

基准覆盖不全：目前的基准主要集中在文本和代码，多模态能力（图像、视频、音频）的评测仍在开发中
权重分配主观：虽然给出了"高/中/低"权重，但具体的权重系数如何确定仍有一定主观性
无法捕捉"特长"：一个模型可能在某个特定领域极其优秀（如数学推理），但因为其他维度表现一般而被拉低总分
计算成本：跑完所有基准需要大量计算资源，小团队难以参与评测

为什么社区开始信任 TrueSkill

LLMStats 社区对 TrueSkill 的信任来自三个因素：

透明度：所有基准测试的数据集、评分方法和权重都是公开的
保守性：μ − 3σ 的设计让分数偏向保守，避免了"刷榜"带来的虚高
社区治理：基准的添加和权重调整由社区投票决定，而非单一机构控制

一位社区成员的总结很到位：

"TrueSkill 不是告诉你哪个模型'最强'，而是告诉你哪个模型'最不会让你失望'。"

行动建议

对于模型选型者：

不要只看一个基准的排名，参考 TrueSkill 的跨基准综合评分
关注 μ 和 σ 两个指标：μ 告诉你平均水平，σ 告诉你稳定性
如果你的场景有特定需求（如纯中文、纯代码），在 TrueSkill 之外也要看专项排名

对于模型开发者：

TrueSkill 的多基准设计鼓励了"全面发展"而非"单点刷榜"
如果你的模型在某个维度特别强，考虑在模型卡片中明确标注，而不是只追求综合排名

对于评测研究者：

TrueSkill 的方法论可以推广到其他 AI 评测领域（如多模态、Agent 能力）
贝叶斯不确定性建模是一个值得借鉴的思路

总结

AI 模型评测正在从"谁在某个基准上考了最高分"走向"谁在多个维度上表现最稳定"。TrueSkill 复合评分不是完美的评测方案，但它是目前最能抵抗"刷榜"、最能反映模型真实能力的方法之一。

在一个基准可以被优化的时代，跨基准的共识是最接近真相的东西。

为什么单一基准不再可信

TrueSkill 复合评分：跨基准的贝叶斯共识

纳入的基准测试

2026 年 5 月 TrueSkill 排行榜快照

TrueSkill vs 传统排行榜

这种方法的局限性

为什么社区开始信任 TrueSkill

行动建议

总结

Related

Aider 44K 星：终端里的 AI 结对编程，到底好不好用？

Cline：6 万星的自主编程 Agent，SDK 化之后到底能不能打？

Codegraph：给 Claude Code 建一个本地知识图谱，token 和工具调用双双减少