当评测变成猫鼠游戏：AI 基准测试正在失去公信力

Hugging Face 的 Open ASR Leaderboard 最近加了一个功能叫"Benchmaxxer Repellant"——字面意思是"刷榜者驱避剂"。

这个名字本身就够讽刺了。一个评测平台需要像防农药一样防着被测对象，说明这个赛道的信任已经降到了什么程度。

问题不新鲜，但正在加速恶化。

过去两年，AI 模型在 MMLU、GSM8K、HumanEval 等主流基准上的分数以肉眼可见的速度飙升。GSM8K 从 GPT-3 时代的不到 20% 涨到现在的 98%+。MMLU 也逼近饱和。看起来模型能力在爆炸式增长——但仔细看，增长曲线和基准题目的泄露速度几乎同步。

不是所有分数增长都是作弊。模型确实在变强。但当分数接近天花板时，区分"真正的能力提升"和"对测试集的过拟合"就变得极其困难。

Benchmaxxer Repellant 的做法是在评测集中加入对抗性样本——故意设计一些能区分"真的懂"和"背过答案"的题目。思路是对的，但这本质上是一场军备竞赛：刷榜者会分析这些对抗样本的分布，然后调整训练策略去适应它们。评测方再升级对抗策略，如此循环。

更深层的问题是：基准测试从一开始就不是完美的能力度量。

MMLU 考的是选择题，但真实世界的工作很少是四选一。HumanEval 测的是函数级代码生成，但实际项目中的代码是几千行的系统，涉及架构设计、边界条件、调试和维护——这些没有任何基准在测。GSM8K 是数学题，但解题能力和数学直觉是两回事。

模型公司当然会针对基准优化——这是商业决策。投资人、客户和媒体都用基准分数做判断。如果你的模型在 MMLU 上落后 5 分，哪怕在实际应用中差别不大，你也会在市场营销中处于劣势。所以优化基准分数是理性的商业行为。

但理性个体行为的集合，导致了集体非理性：所有模型在基准上都很强，但我们不知道它们在实际场景中到底怎么样。

这让人想起搜索引擎优化的历史。Google 的 PageRank 最初是衡量网页质量的可靠指标，然后人们开始专门针对 PageRank 优化（买链接、建链接农场），指标就失真了。Google 后来引入了数百个信号来对抗 SEO 作弊，SEO 社区又针对新信号调整策略——这个猫鼠游戏持续了二十年。

AI 评测正在走同一条路。

出路在哪？我觉得有三个方向值得关注：

第一，动态评测——基准题目不固定，定期更新，或者用生成式方法实时出题。这增加了刷榜成本。

第二，任务级评测——不考知识点，考完成真实任务的能力。比如"分析这份财报并给出投资建议"、"把这个 Python 2 项目迁移到 Python 3 并修复所有类型错误"。这些任务很难被提前准备。

第三，社区实测数据——最可靠的评测往往来自真实用户的反馈。Artificial Analysis 的模式（收集真实 API 调用的延迟、价格、质量数据）比单纯的基准分数更有说服力。

在评测公信力完全修复之前，我建议读者看模型分数时多问一句：这个分数是怎么来的？测试集是否公开？模型是否在测试集上做过微调？

如果答案不确定，那这个分数的参考价值就要打折扣。

主要来源：

Related