奥数金牌级推理：大模型靠简单缩放就做到了，这反而让人不安

国际数学奥林匹克（IMO）的金牌题，是全世界最聪明的高中生拼了命也未必能解出来的东西。

但现在，一篇署名 28 位作者的论文声称，通过"简单且统一的缩放"（Simple and Unified Scaling），大语言模型已经能稳定达到金牌级别的推理水平。论文在 Hugging Face Daily Papers 上获得了 140 个 upvote 和 70 条评论，是当天最热门的研究。

论文说了什么

论文标题直截了当："Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling"。核心主张是：不需要设计全新的推理架构，不需要发明复杂的训练范式，只要对现有的大模型做系统性的缩放——包括数据规模、模型参数、推理计算量三个维度——就能把数学推理能力推到 IMO 金牌线。

这个结论乍看平淡无奇。"缩放定律"（Scaling Laws）已经是老生常谈了，Kaplan 等人 2020 年就开始讨论这个问题。但关键在于：数学奥林匹克推理一直被认为是需要特殊训练的硬骨头。过去几年，社区尝试了各种方法——思维链（CoT）、过程监督（Process Reward Models）、形式化验证（Lean/Isabelle 辅助证明）、专门的数学数据集（MATH、AIME、OlympiadBench）——每种方法都有人宣称取得了突破。

而这篇论文的立场近乎挑衅：那些花里胡哨的技巧固然有用，但最根本的驱动力还是缩放。

一个让人不安的信号

这里有一个值得注意的微妙之处。论文来自一个拥有 28 位作者的大型团队，这意味着背后有充足的算力资源。当"简单缩放"成为最优策略时，它实际上在宣告一件事：数学推理能力的竞争，正在从算法创新转向算力竞赛。

这对学术社区来说是个坏消息。小规模团队再也无法通过巧妙的算法设计来追赶大团队的推理能力——因为最根本的瓶颈是"你的 GPU 够不够多"。

但这也许就是现实。AlphaGo 当年击败李世石时，靠的也是算力+数据的暴力组合，而不是什么优雅的数学理论。

与已有工作的对比

值得注意的是，同一时期还有其他团队在做不同的尝试。Google DeepMind 的 Gemini Deep Think 项目也在推进数学和科学发现的自动化，但他们的方法更侧重"深度思考"模式——让模型花更多时间进行内部推理。而这篇缩放论文的方向正好相反：它暗示你不需要让模型"想得更深"，只需要让它"变得更大"。

两种路线孰优孰劣，目前还没有定论。但缩放路线的吸引力在于它的可预测性——你知道只要投入更多资源，能力就会提升。而深度思考路线的上限在哪里，没有人说得清。

我的判断

这篇论文的价值不在于提出了什么新理论，而在于它用实证结果回答了社区争论已久的一个问题：数学推理的瓶颈到底在哪？

答案可能令人失望：瓶颈不在算法，在算力。

这并不意味着算法研究没有价值。就像深度学习本身就是一个算法突破一样，未来可能会有新的架构或训练方法，从根本上改变推理能力的缩放曲线。但至少在当前阶段，"更大就是更强"仍然是一个有效的策略。

IMO 金牌不再遥不可及。但代价是，通往金牌的路越来越贵。

主要来源：

Hugging Face Daily Papers - Achieving Gold-Medal-Level Olympiad Reasoning

论文说了什么

一个让人不安的信号

与已有工作的对比

我的判断

Related

APWA：让多 Agent 系统真正并行化的分布式架构

Dual-Dimensional Consistency：让推理时缩放省 10 倍 Token 的新方法

MemEye：多模态 Agent 记忆能力的视觉中心评估框架