Обзоры Soohak:43位数学家手工出题,对LLM研究级数学能力的真实测试 12 мая 2026 г. by ChaoBro #数学评测 #Benchmark #Soohak #数学推理 #Оценка AIME、MATH、GSM8K——LLM数学评测很多。但问题:这些题模型可能在预训练时已见过。 Soohak换了思路:43位数学家手工出题,不在网上,考纯推理能力。 主要来源:arXiv:2605.09063