Google DeepMind 发布 AI 协数学家：多 Agent 系统攻克前沿数学研究

数学研究可能是 AI 最后一个还没大规模攻进去的堡垒。

编程有了 SWE-bench 82 分的标杆，写作有了各种 benchmark，但数学不一样——前沿数学问题不是"对或错"那么简单，它需要证明、需要洞察、需要那些人类数学家花几个月才能磨出来的直觉。

5 月 8 日，Google DeepMind 发布了 AI co-mathematician 的技术报告。不是一个"能做题的模型"，而是一个为数学家设计的协作工作台。

它不是答题机器

这个系统的定位很明确：不是替代数学家，而是和数学家一起工作。

它由多个 Agent 组成，分工明确——有的负责生成证明思路，有的负责验证推导步骤，有的负责搜索相关文献。数学家可以在任何环节介入、引导、修正。

听起来像 Agent 框架的老套路？区别在于它面对的任务难度。

FrontierMath 是一个研究级数学问题的 benchmark。Tier 4 是其中最高难度层级，包含 50 道连大学教授都觉得"AI 可能几十年都碰不了"的问题。

AI co-mathematician 在这 50 道题上拿到了 48% 的分数。

这数字意味着什么？意味着接近一半的顶尖研究级问题，这个系统给出了部分或完整的解法思路。不是选择题，是开放式的、需要构造性证明的研究题。

更有趣的是它的工作方式：系统会生成一个证明，然后自己的评审 Agent 会检查这个证明，标记出错误，然后生成模块会修正。这个"自我纠错"的循环，比单纯的"一次生成"靠谱得多。

DeepMind 找了数学家来实际测试这个系统。一位测试者的原话是："它不会帮你找到那个关键的洞察——但你有了洞察之后，它能帮你把证明写完整、把细节补齐。"

这其实是现在 AI 做研究工具最现实的定位：不是替代你的灵感，而是放大你的执行力。

你负责"想到"，它负责"写完"。

目前的通用模型（包括 Claude 4、GPT-5.5）在纯数学推理上依然有明显天花板。它们能做中等难度的证明，但面对需要多步构造和跨领域知识整合的研究级问题，往往会在一个细节上卡住然后整个证明崩溃。

AI co-mathematician 的设计思路是：把"一个模型做所有事"拆成"多个 Agent 各司其职 + 人类专家在关键时刻介入"。这不是一个更聪明的模型，而是一个更聪明的流程。

技术报告已公开，但系统本身目前还是研究原型，没有开源，也没有 API。

对做 Agent 框架的人来说，这个案例值得拆解：多 Agent 协作在什么场景下比单 Agent 有效？自我纠错循环的设计模式是什么？人类介入的时机怎么判定？

这些问题，co-mathematician 给出了一个具体的参考答案。

主要来源：