Soohak：43位数学家手工出题，对LLM研究级数学能力的真实测试

2026年5月12日 by ChaoBro

#数学评测 #Benchmark #Soohak #数学推理 #評価

$Soohak：43位数学家手工出题，对LLM研究级数学能力的真实测试$

AIME、MATH、GSM8K……LLM数学评测榜单挤得不行。但一个一直被诟病的问题：这些题很多已被模型在预训练阶段见过。

Soohak想换个思路。

arXiv:2605.09063发布的Soohak benchmark由43位数学家手工出题，覆盖本科到研究生级数学。不是刷题库，是出题库。

为什么手工出题

现有数学benchmark的问题：数据泄露、难度天花板低、覆盖窄。

Soohak的解决方式：让数学家出新题。不在网上，模型没见过，考纯推理能力。

参与机构包括EleutherAI、CMU（Sean Welleck、Graham Neubig）、KAIST等。

主要来源：arXiv:2605.09063