C
ChaoBro

当评测变成猫鼠游戏:AI 基准测试正在失去公信力

当评测变成猫鼠游戏:AI 基准测试正在失去公信力

Hugging Face 的 Open ASR Leaderboard 最近加了一个功能叫"Benchmaxxer Repellant"——字面意思是"刷榜者驱避剂"。

这个名字本身就够讽刺了。一个评测平台需要像防农药一样防着被测对象,说明这个赛道的信任已经降到了什么程度。

问题不新鲜,但正在加速恶化。

过去两年,AI 模型在 MMLU、GSM8K、HumanEval 等主流基准上的分数以肉眼可见的速度飙升。GSM8K 从 GPT-3 时代的不到 20% 涨到现在的 98%+。MMLU 也逼近饱和。看起来模型能力在爆炸式增长——但仔细看,增长曲线和基准题目的泄露速度几乎同步。

不是所有分数增长都是作弊。模型确实在变强。但当分数接近天花板时,区分"真正的能力提升"和"对测试集的过拟合"就变得极其困难。

Benchmaxxer Repellant 的做法是在评测集中加入对抗性样本——故意设计一些能区分"真的懂"和"背过答案"的题目。思路是对的,但这本质上是一场军备竞赛:刷榜者会分析这些对抗样本的分布,然后调整训练策略去适应它们。评测方再升级对抗策略,如此循环。

更深层的问题是:基准测试从一开始就不是完美的能力度量。

MMLU 考的是选择题,但真实世界的工作很少是四选一。HumanEval 测的是函数级代码生成,但实际项目中的代码是几千行的系统,涉及架构设计、边界条件、调试和维护——这些没有任何基准在测。GSM8K 是数学题,但解题能力和数学直觉是两回事。

模型公司当然会针对基准优化——这是商业决策。投资人、客户和媒体都用基准分数做判断。如果你的模型在 MMLU 上落后 5 分,哪怕在实际应用中差别不大,你也会在市场营销中处于劣势。所以优化基准分数是理性的商业行为。

但理性个体行为的集合,导致了集体非理性:所有模型在基准上都很强,但我们不知道它们在实际场景中到底怎么样。

这让人想起搜索引擎优化的历史。Google 的 PageRank 最初是衡量网页质量的可靠指标,然后人们开始专门针对 PageRank 优化(买链接、建链接农场),指标就失真了。Google 后来引入了数百个信号来对抗 SEO 作弊,SEO 社区又针对新信号调整策略——这个猫鼠游戏持续了二十年。

AI 评测正在走同一条路。

出路在哪?我觉得有三个方向值得关注:

第一,动态评测——基准题目不固定,定期更新,或者用生成式方法实时出题。这增加了刷榜成本。

第二,任务级评测——不考知识点,考完成真实任务的能力。比如"分析这份财报并给出投资建议"、"把这个 Python 2 项目迁移到 Python 3 并修复所有类型错误"。这些任务很难被提前准备。

第三,社区实测数据——最可靠的评测往往来自真实用户的反馈。Artificial Analysis 的模式(收集真实 API 调用的延迟、价格、质量数据)比单纯的基准分数更有说服力。

在评测公信力完全修复之前,我建议读者看模型分数时多问一句:这个分数是怎么来的?测试集是否公开?模型是否在测试集上做过微调?

如果答案不确定,那这个分数的参考价值就要打折扣。

主要来源: