为什么单一基准不再可信
2026 年的 AI 模型评测面临一个尴尬的现实:几乎任何单一基准都可以通过针对性训练被"刷"上去。
- 在 MMLU 上考高分?在训练数据中加入类似的多选题即可
- SWE-Bench 排名高?用 SWE-Bench 的 issue 做微调
- HumanEval 满分?这已经是 2024 年就能做到的事
当每个基准都可以被优化,单一基准的排名就失去了参考价值。这正是 LLMStats 推出 TrueSkill 复合评分的出发点。
TrueSkill 复合评分:跨基准的贝叶斯共识
LLMStats 的 TrueSkill 复合评分采用了一个简洁但有效的方法论:
TrueSkill Score = μ − 3σ
其中:
- μ(均值):模型在多个基准测试中的平均表现
- σ(标准差):模型在不同基准上表现的波动程度
- −3σ:保守估计,取均值减去 3 倍标准差(覆盖 99.7% 的置信区间)
这个公式的核心逻辑是:一个模型如果只在某个基准上表现好,但在其他基准上波动很大,那么它的 TrueSkill 分数会被 σ 惩罚。只有在所有基准上都能稳定表现的模型,才能获得高 TrueSkill 分数。
纳入的基准测试
TrueSkill 复合评分跨以下基准(截至 2026 年 5 月):
| 基准 | 评测维度 | 权重 |
|---|---|---|
| GPQA | 研究生级科学推理 | 高 |
| SWE-Bench | 软件工程能力 | 高 |
| LiveCodeBench | 实时编码能力 | 高 |
| MATH | 数学推理 | 中 |
| MMLU-Pro | 多领域知识 | 中 |
| Arena Hard | 对话能力 | 中 |
| HumanEval | 代码生成(基础) | 低 |
| Big-Bench Hard | 综合推理 | 低 |
为什么 GPQA 和 SWE-Bench 权重最高?
GPQA(Graduate-Level Google-Proof Q&A)是目前最难被"刷"的基准之一——问题来自博士级考试,需要真正的学科理解而非模式匹配。SWE-Bench 评估的是模型在真实 GitHub issue 上的表现,比合成代码任务更接近实际开发场景。
2026 年 5 月 TrueSkill 排行榜快照
根据 LLMStats 最新数据(2026 年 5 月 3 日更新),以下是部分模型的 TrueSkill 复合评分排名:
| 排名 | 模型 | TrueSkill Score | 主要优势 | 主要短板 |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 | 87.2 | SWE-Bench, GPQA | 推理速度 |
| 2 | GPT-5.5 | 84.5 | 多基准均衡, 推理速度 | SWE-Bench 复杂 issue |
| 3 | Claude 5 "Mythos" (Beta) | 82.1 | 安全漏洞发现, 推理 | 未正式发布 |
| 4 | DeepSeek V4 Pro | 79.8 | SWE-Bench, 性价比 | 中文→英文跨语言能力 |
| 5 | Gemini 3.1 Pro | 78.3 | 多模态, 数学推理 | SWE-Bench |
| 6 | Grok 4.3 | 75.6 | 实时信息检索 | GPQA |
| 7 | Qwen3.6-Max | 73.2 | 中文任务, 长上下文 | 英文科学推理 |
| 8 | 文心 5.1 Preview | 71.5 | 中文推理, 多模态 | 英文编码 |
| 9 | Kimi K2.6 | 70.8 | 长上下文, 中文 | GPQA |
| 10 | Ling-2.6-1T | 68.4 | 中文长文档 | 代码能力 |
TrueSkill vs 传统排行榜
| 维度 | LM Arena (投票制) | TrueSkill (复合评分) |
|---|---|---|
| 评测方式 | 人类投票( pairwise 比较) | 多基准自动化测试 |
| 主观性 | 高(人类偏好影响) | 低(客观基准分数) |
| 可重复性 | 低(投票结果随时间波动) | 高(基准固定可复测) |
| 刷榜难度 | 中(需要影响用户投票行为) | 高(需同时提升多个维度) |
| 置信区间 | 无(只有排名) | 有(μ ± σ) |
| 更新频率 | 每周 | 每日 |
这种方法的局限性
TrueSkill 复合评分并非完美:
- 基准覆盖不全:目前的基准主要集中在文本和代码,多模态能力(图像、视频、音频)的评测仍在开发中
- 权重分配主观:虽然给出了"高/中/低"权重,但具体的权重系数如何确定仍有一定主观性
- 无法捕捉"特长":一个模型可能在某个特定领域极其优秀(如数学推理),但因为其他维度表现一般而被拉低总分
- 计算成本:跑完所有基准需要大量计算资源,小团队难以参与评测
为什么社区开始信任 TrueSkill
LLMStats 社区对 TrueSkill 的信任来自三个因素:
- 透明度:所有基准测试的数据集、评分方法和权重都是公开的
- 保守性:μ − 3σ 的设计让分数偏向保守,避免了"刷榜"带来的虚高
- 社区治理:基准的添加和权重调整由社区投票决定,而非单一机构控制
一位社区成员的总结很到位:
"TrueSkill 不是告诉你哪个模型'最强',而是告诉你哪个模型'最不会让你失望'。"
行动建议
对于模型选型者:
- 不要只看一个基准的排名,参考 TrueSkill 的跨基准综合评分
- 关注 μ 和 σ 两个指标:μ 告诉你平均水平,σ 告诉你稳定性
- 如果你的场景有特定需求(如纯中文、纯代码),在 TrueSkill 之外也要看专项排名
对于模型开发者:
- TrueSkill 的多基准设计鼓励了"全面发展"而非"单点刷榜"
- 如果你的模型在某个维度特别强,考虑在模型卡片中明确标注,而不是只追求综合排名
对于评测研究者:
- TrueSkill 的方法论可以推广到其他 AI 评测领域(如多模态、Agent 能力)
- 贝叶斯不确定性建模是一个值得借鉴的思路
总结
AI 模型评测正在从"谁在某个基准上考了最高分"走向"谁在多个维度上表现最稳定"。TrueSkill 复合评分不是完美的评测方案,但它是目前最能抵抗"刷榜"、最能反映模型真实能力的方法之一。
在一个基准可以被优化的时代,跨基准的共识是最接近真相的东西。