Soohak：43 位数学家手工出的数学题，给 LLM 的研究级数学能力做一次真测试

AIME、MATH、GSM8K……LLM 数学评测榜单挤得不行。但一个一直被诟病的问题是：这些题，很多已经被模型在预训练阶段见过了。

Soohak 想换个思路。

arXiv:2605.09063 发布的 Soohak benchmark 由 43 位数学家（是的，43 位）手工出题，覆盖从本科高年级到研究生级别的数学内容。这不是刷题库，这是出题库。

为什么要手工出题

现有的数学 benchmark 有几个问题：

数据泄露。 AIME 和 AMC 的题目在网上到处都是，模型在预训练阶段可能已经"背"过了。考的不是推理能力，是记忆能力。

难度天花板低。 GSM8K 是小学应用题级别，MATH 是高中竞赛水平。但对于评估 LLM 是否能做真正的数学研究，这些都不够。

覆盖窄。 大多数 benchmark 集中在代数和组合数学，数论、分析、拓扑等领域覆盖不足。

Soohak 的解决方式简单粗暴：让数学家出新的题。 这些题目不在网上，模型没见过，考的就是纯推理能力。

43 位数学家来自 SNU、CMU、University of Washington 等机构。出题过程有几个关键设计：

参与机构包括了 EleutherAI、CMU（Sean Welleck、Graham Neubig）、KAIST 等在 AI 评测和数学推理领域有深厚积累的团队。

Sean Welleck 之前做过几篇重要的 LLM 数学能力论文，Graham Neubig 在 CMU 的 LLM 研究组是顶配。这个阵容说明 Soohak 不是一个小项目。

手工出题的 benchmark 有一个天然局限：更新成本高。 每出一批题，需要数学家投入大量时间。如果社区用得好，题目会不会被泄露到训练数据里？

论文提到题目在审核中（under review），还没有公开发布数据集。这可能是出于防泄露的考虑。

Soohak 的方向是对的。LLM 数学评测已经到了"现有 benchmark 快被刷穿"的阶段。需要新的、更干净的评测方式来区分"背题能力"和"推理能力"。

但我也保留一个判断：如果 Soohak 的题目最终公开了，大模型公司会不会用它们做 post-training 的强化学习？如果是，那 Soohak 的"干净性"也只能维持一轮评测。

这几乎是一个无解的困境：好的评测需要公开透明，但公开就意味着会被纳入训练数据。

也许最终的答案不是"出一个永远干净的 benchmark"，而是建立一套持续更新的评测机制——像数学竞赛每年出新题一样，AI 数学评测也需要定期出题、定期更新。

主要来源：

arXiv:2605.09063 - Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs
提交者 amphora on HuggingFace Daily Papers 2026-05-12