Timothy Gowersという名前は数学界で説明不要だ。1998年のフィールズ賞受賞者、ケンブリッジ大学教授。彼の一つのブログ投稿だけで、数学界全体が足を止めるほどの影響力を持つ。
5月8日、彼は自身のブログに一篇の長文を投稿した。タイトルは素朴だ:「ChatGPT 5.5 Proの最近の経験」。内容はシンプル。彼がChatGPT 5.5 Proを使って加法数論の博士レベル研究を行い、自分自身は実質的な数学的入力を行わず、モデルは約1時間で研究価値のある結果を产出した。
簡単な問題を選んだわけではない
Gowersが選んだのは、コミュニティですでにLLMが解けるかどうか議論されているErdős問題リストの題目ではなかった。Mel Nathansonの論文中で提起された未解決の問題を選んだのだ。これらの問題には特定の特徴がある。著者が提起した後、問題数の多さから一つ一つ深く考える時間がなく、難しくないかもしれないが未解決のサブ問題が自然に残されている。
歴史的に、これらの問題は研究初心者の数学者に最適だった。公式に「未解決」とされる問題を解くことは、若手研究者にとって大きな励みになる。Gowersはこう書いている:
「このような論文はかつて問題の供給源として価値があった。だが基準は引き上げられた。誰かが問題を提起するだけではもはや十分ではない。LLMが解けないほど難しくなければならない。」
これは重い一言だ。「LLMが数学研究を支援する」といった曖昧な話ではない。現役の数学研究者が、問題選定の基準をモデルの存在によって変えなければならないと認めているのだ。
ChatGPT 5.5 Proが実際に何をしたか
Gowersの説明によると、ChatGPT 5.5 Proはいくつかの注目すべき挙動を示した:
第一に、文献から既知の結果を単に「検索」したわけではなかった。Gowersは明確に、初期のLLMの解答はしばしば答えがすでに発表された文献にあることに気づくだけだったと指摘している。今回は違った。出力には人類の数学者が見落としていた可能性のある推論パスが含まれていた。
第二に、スピード。約1時間。スピード自体が一つのシグナルだ。人類ができないと言っているのではない。数学的入力がゼロの非数学者が、1時間で博士レベルの問題研究を前進させられるということだ。
これが重要な理由
Hacker Newsでの410ポイント、244コメントは、コミュニティがこの件に注目していることを示している。しかし、コメント欄は重要な論争も明らかにしている。LLMが产出した数学は「独創的」と言えるのか?
あるステップの論証が既存文献に先例があれば、LLMは単に既存知識を「組み合わせ」ているに過ぎないと主張する人もいる。Gowers自身の回答は実務的だ:「完全に合格と言える人類の数学研究の多くは、既存の知識と証明技術を組み合わせるものから構成されている。」
これは地に足のついた見方だ。数学研究における「独創性」と「組み合わせ」の境界線はもともと曖昧だった。LLMの組み合わせ能力が博士レベルの成果を产出できるレベルに達したなら、それが「本当に独創的か」を議論するよりも、何ができるか・できないかに注目する方が有用だろう。
まだ人類を代替する段階ではない
Gowersは境界線にも言及している。完全に新しいアプローチが必要で先例がない問題については、LLMはまだそこまで到達していない。彼のテストは「何らかの理由で人類の数学者が見落とした単純な論証があるかもしれない」問題に集中していた。これはまさにLLMが最も得意とする領域だ。
だから数学の大学院生をAPIキーに置き換えるのは時期尚早だ。しかし、フィールズ賞受賞者がLLMのために問題選定基準を変えなければならないと認めるというシグナル自体、何かが変化しつつあることを十分に物語っている。
主な情報源: