菲尔兹奖得主实测：ChatGPT 5.5 Pro 一小时产出博士级数学研究

Timothy Gowers 这个名字在数学圈不需要介绍。1998 年菲尔兹奖得主，剑桥大学教授，他的一条博客动态，足够让整个数学界停下来看一看。

5 月 8 日，他在自己的博客上发了一篇长文，标题很平实：《A recent experience with ChatGPT 5.5 Pro》。内容不复杂：他用 ChatGPT 5.5 Pro 做了一轮加法数论方向的博士级研究，全程他自己没有做任何实质性的数学推导，模型在大约一小时内产出了有研究价值的结果。

他不是随便找了个简单问题

Gowers 这次选的测试对象不是 Erdős 问题列表上那些已经被解决的题目——那种级别的题目，社区早就讨论过 LLM 能不能做、怎么做的。他选的是 Mel Nathanson 一篇论文中提出的几个开放式问题。这类问题的特点是：论文作者自己提出来之后，因为问题数量太多，没有精力逐个深入思考，所以天然存在一些可能不太难但尚未被解决的子问题。

过去这类问题非常适合数学新手练手。解决一个官方"开放"的问题，对新研究者来说是巨大的鼓励。Gowers 写道：

"过去这些论文很有价值，因为它们是问题的来源。但现在标准被提高了。光有人提出问题已经不够了——问题必须足够难，难到 LLM 解不了。"

这句话的分量很重。不是"LLM 辅助数学研究"这种泛泛的说法，而是一个真正在一线做数学的人，承认了他筛选问题的标准需要因为一个模型的存在而改变。

ChatGPT 5.5 Pro 到底做了什么

从 Gowers 的描述来看，ChatGPT 5.5 Pro 在这次任务中的表现有几个特点：

首先，它不是简单地从文献里"搜索"已知结果。Gowers 明确提到，早期 LLM 解决数学问题的方式大多是发现答案已经在文献中了，或者可以从已知结果中轻易推导出来。但这次不同——产出的论证中包含了人类数学家可能遗漏的推理路径。

其次，速度。大约一小时。这个速度本身就是一个信号——不是说人类做不到，而是说一个非数学专家的从业者，可以在没有任何数学输入的情况下，在一小时内推动一个博士级问题的研究。

这篇博文为什么值得注意

Hacker News 上 410 分、244 条评论，说明社区也在关注这件事。但评论区的讨论也暴露了一个关键分歧：LLM 产出数学成果，到底算不算"原创"？

有人说，如果论证中的每一步都能在已有文献中找到先例，那 LLM 只是在"组合"已有知识。Gowers 自己的回应倒是务实："很多完全合格的人类数学工作，也就是把已有知识和证明技术组合在一起。"

这个观点很实在。数学研究中"原创"和"组合"之间的界线本来就模糊。如果 LLM 的组合能力已经达到了能产出博士级成果的水平，纠结它是不是"真正原创"，可能不如关注它能做什么、不能做什么来得实际。

还没到替代人类的地步

Gowers 也提到了边界。对于需要全新思路、没有先例可循的问题，LLM 目前的水平还不够。他的测试集中在"可能存在简单论证但人类数学家因各种原因没注意到"的问题类型上——这本身就是 LLM 最擅长的场景。

所以别急着把数学系的研究生全换成 API key。但这个信号本身——一个菲尔兹奖得主承认筛选问题的标准需要因为 LLM 而改变——已经足够说明某些事情正在变化。

主要来源：

他不是随便找了个简单问题

ChatGPT 5.5 Pro 到底做了什么

这篇博文为什么值得注意

还没到替代人类的地步

Related

AI 正在改变漏洞披露文化：从负责任披露到攻防加速

七家非 AI 公司一周内密集发模型：中国大模型进入"全民造轮子"阶段

MiniMax M2.7：模型自进化 Agent 框架上线，办公场景能力大幅增强