C
ChaoBro

Soohak:43位数学家手工出题,对LLM研究级数学能力的真实测试

Soohak:43位数学家手工出题,对LLM研究级数学能力的真实测试

AIME、MATH、GSM8K——LLM数学评测很多。但问题:这些题模型可能在预训练时已见过。

Soohak换了思路:43位数学家手工出题,不在网上,考纯推理能力。


主要来源:arXiv:2605.09063