C
ChaoBro

奥数金牌级推理:大模型靠简单缩放就做到了,这反而让人不安

奥数金牌级推理:大模型靠简单缩放就做到了,这反而让人不安

国际数学奥林匹克(IMO)的金牌题,是全世界最聪明的高中生拼了命也未必能解出来的东西。

但现在,一篇署名 28 位作者的论文声称,通过"简单且统一的缩放"(Simple and Unified Scaling),大语言模型已经能稳定达到金牌级别的推理水平。论文在 Hugging Face Daily Papers 上获得了 140 个 upvote 和 70 条评论,是当天最热门的研究。

论文说了什么

论文标题直截了当:"Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling"。核心主张是:不需要设计全新的推理架构,不需要发明复杂的训练范式,只要对现有的大模型做系统性的缩放——包括数据规模、模型参数、推理计算量三个维度——就能把数学推理能力推到 IMO 金牌线。

这个结论乍看平淡无奇。"缩放定律"(Scaling Laws)已经是老生常谈了,Kaplan 等人 2020 年就开始讨论这个问题。但关键在于:数学奥林匹克推理一直被认为是需要特殊训练的硬骨头。过去几年,社区尝试了各种方法——思维链(CoT)、过程监督(Process Reward Models)、形式化验证(Lean/Isabelle 辅助证明)、专门的数学数据集(MATH、AIME、OlympiadBench)——每种方法都有人宣称取得了突破。

而这篇论文的立场近乎挑衅:那些花里胡哨的技巧固然有用,但最根本的驱动力还是缩放。

一个让人不安的信号

这里有一个值得注意的微妙之处。论文来自一个拥有 28 位作者的大型团队,这意味着背后有充足的算力资源。当"简单缩放"成为最优策略时,它实际上在宣告一件事:数学推理能力的竞争,正在从算法创新转向算力竞赛。

这对学术社区来说是个坏消息。小规模团队再也无法通过巧妙的算法设计来追赶大团队的推理能力——因为最根本的瓶颈是"你的 GPU 够不够多"。

但这也许就是现实。AlphaGo 当年击败李世石时,靠的也是算力+数据的暴力组合,而不是什么优雅的数学理论。

与已有工作的对比

值得注意的是,同一时期还有其他团队在做不同的尝试。Google DeepMind 的 Gemini Deep Think 项目也在推进数学和科学发现的自动化,但他们的方法更侧重"深度思考"模式——让模型花更多时间进行内部推理。而这篇缩放论文的方向正好相反:它暗示你不需要让模型"想得更深",只需要让它"变得更大"。

两种路线孰优孰劣,目前还没有定论。但缩放路线的吸引力在于它的可预测性——你知道只要投入更多资源,能力就会提升。而深度思考路线的上限在哪里,没有人说得清。

我的判断

这篇论文的价值不在于提出了什么新理论,而在于它用实证结果回答了社区争论已久的一个问题:数学推理的瓶颈到底在哪?

答案可能令人失望:瓶颈不在算法,在算力。

这并不意味着算法研究没有价值。就像深度学习本身就是一个算法突破一样,未来可能会有新的架构或训练方法,从根本上改变推理能力的缩放曲线。但至少在当前阶段,"更大就是更强"仍然是一个有效的策略。

IMO 金牌不再遥不可及。但代价是,通往金牌的路越来越贵。


主要来源: