Timothy Gowers 这个名字在数学圈不需要介绍。1998 年菲尔兹奖得主,剑桥大学教授,他的一条博客动态,足够让整个数学界停下来看一看。
5 月 8 日,他在自己的博客上发了一篇长文,标题很平实:《A recent experience with ChatGPT 5.5 Pro》。内容不复杂:他用 ChatGPT 5.5 Pro 做了一轮加法数论方向的博士级研究,全程他自己没有做任何实质性的数学推导,模型在大约一小时内产出了有研究价值的结果。
他不是随便找了个简单问题
Gowers 这次选的测试对象不是 Erdős 问题列表上那些已经被解决的题目——那种级别的题目,社区早就讨论过 LLM 能不能做、怎么做的。他选的是 Mel Nathanson 一篇论文中提出的几个开放式问题。这类问题的特点是:论文作者自己提出来之后,因为问题数量太多,没有精力逐个深入思考,所以天然存在一些可能不太难但尚未被解决的子问题。
过去这类问题非常适合数学新手练手。解决一个官方"开放"的问题,对新研究者来说是巨大的鼓励。Gowers 写道:
"过去这些论文很有价值,因为它们是问题的来源。但现在标准被提高了。光有人提出问题已经不够了——问题必须足够难,难到 LLM 解不了。"
这句话的分量很重。不是"LLM 辅助数学研究"这种泛泛的说法,而是一个真正在一线做数学的人,承认了他筛选问题的标准需要因为一个模型的存在而改变。
ChatGPT 5.5 Pro 到底做了什么
从 Gowers 的描述来看,ChatGPT 5.5 Pro 在这次任务中的表现有几个特点:
首先,它不是简单地从文献里"搜索"已知结果。Gowers 明确提到,早期 LLM 解决数学问题的方式大多是发现答案已经在文献中了,或者可以从已知结果中轻易推导出来。但这次不同——产出的论证中包含了人类数学家可能遗漏的推理路径。
其次,速度。大约一小时。这个速度本身就是一个信号——不是说人类做不到,而是说一个非数学专家的从业者,可以在没有任何数学输入的情况下,在一小时内推动一个博士级问题的研究。
这篇博文为什么值得注意
Hacker News 上 410 分、244 条评论,说明社区也在关注这件事。但评论区的讨论也暴露了一个关键分歧:LLM 产出数学成果,到底算不算"原创"?
有人说,如果论证中的每一步都能在已有文献中找到先例,那 LLM 只是在"组合"已有知识。Gowers 自己的回应倒是务实:"很多完全合格的人类数学工作,也就是把已有知识和证明技术组合在一起。"
这个观点很实在。数学研究中"原创"和"组合"之间的界线本来就模糊。如果 LLM 的组合能力已经达到了能产出博士级成果的水平,纠结它是不是"真正原创",可能不如关注它能做什么、不能做什么来得实际。
还没到替代人类的地步
Gowers 也提到了边界。对于需要全新思路、没有先例可循的问题,LLM 目前的水平还不够。他的测试集中在"可能存在简单论证但人类数学家因各种原因没注意到"的问题类型上——这本身就是 LLM 最擅长的场景。
所以别急着把数学系的研究生全换成 API key。但这个信号本身——一个菲尔兹奖得主承认筛选问题的标准需要因为 LLM 而改变——已经足够说明某些事情正在变化。
主要来源: