C
ChaoBro

Google DeepMind 发布 AI 协数学家:多 Agent 系统攻克前沿数学研究

Google DeepMind 发布 AI 协数学家:多 Agent 系统攻克前沿数学研究

数学研究可能是 AI 最后一个还没大规模攻进去的堡垒。

编程有了 SWE-bench 82 分的标杆,写作有了各种 benchmark,但数学不一样——前沿数学问题不是"对或错"那么简单,它需要证明、需要洞察、需要那些人类数学家花几个月才能磨出来的直觉。

5 月 8 日,Google DeepMind 发布了 AI co-mathematician 的技术报告。不是一个"能做题的模型",而是一个为数学家设计的协作工作台

它不是答题机器

这个系统的定位很明确:不是替代数学家,而是和数学家一起工作

它由多个 Agent 组成,分工明确——有的负责生成证明思路,有的负责验证推导步骤,有的负责搜索相关文献。数学家可以在任何环节介入、引导、修正。

听起来像 Agent 框架的老套路?区别在于它面对的任务难度。

FrontierMath Tier 4:48%

FrontierMath 是一个研究级数学问题的 benchmark。Tier 4 是其中最高难度层级,包含 50 道连大学教授都觉得"AI 可能几十年都碰不了"的问题。

AI co-mathematician 在这 50 道题上拿到了 48% 的分数

这数字意味着什么?意味着接近一半的顶尖研究级问题,这个系统给出了部分或完整的解法思路。不是选择题,是开放式的、需要构造性证明的研究题。

更有趣的是它的工作方式:系统会生成一个证明,然后自己的评审 Agent 会检查这个证明,标记出错误,然后生成模块会修正。这个"自我纠错"的循环,比单纯的"一次生成"靠谱得多。

数学家的真实反馈

DeepMind 找了数学家来实际测试这个系统。一位测试者的原话是:"它不会帮你找到那个关键的洞察——但你有了洞察之后,它能帮你把证明写完整、把细节补齐。"

这其实是现在 AI 做研究工具最现实的定位:不是替代你的灵感,而是放大你的执行力

你负责"想到",它负责"写完"。

和 Claude、GPT 的差距

目前的通用模型(包括 Claude 4、GPT-5.5)在纯数学推理上依然有明显天花板。它们能做中等难度的证明,但面对需要多步构造和跨领域知识整合的研究级问题,往往会在一个细节上卡住然后整个证明崩溃。

AI co-mathematician 的设计思路是:把"一个模型做所有事"拆成"多个 Agent 各司其职 + 人类专家在关键时刻介入"。这不是一个更聪明的模型,而是一个更聪明的流程

开源了吗

技术报告已公开,但系统本身目前还是研究原型,没有开源,也没有 API。

对做 Agent 框架的人来说,这个案例值得拆解:多 Agent 协作在什么场景下比单 Agent 有效?自我纠错循环的设计模式是什么?人类介入的时机怎么判定?

这些问题,co-mathematician 给出了一个具体的参考答案。


主要来源: