Google DeepMindがAI共同数学者を発表：マルチエージェントシステムがフロンティア数学研究に挑む

数学研究は、AIが大規模に攻略していない最後の砦かもしれません。

プログラミングにはSWE-bench 82があり、ライティングには様々なベンチマークがありますが、数学は違います — フロンティアの問題は「正解か不正解か」の選択肢問題ではないのです。証明が必要で、洞察が必要で、人間の数学者が何ヶ月もかけて磨き上げる直感が必要なのです。

5月8日、Google DeepMindは AI co-mathematician の技術報告書を発表しました。「問題を解くモデル」ではなく、数学者のために設計された協業ワークベンチです。

解答マシンではない

システムの位置づけは明確です。数学者を代替するのではなく、数学者と共に働くこと。

複数のエージェントで構成され、それぞれ役割が分かれています。一つは証明のアプローチを生成し、もう一つは導出ステップを検証し、さらに一つは関連文献を検索します。数学者はどの段階でも介入、誘導、修正できます。

標準的なエージェントフレームワークの話に聞こえる？違いはタスクの難易度です。

FrontierMathは研究レベルの数学ベンチマーク。Tier 4は最高難度層で、大学教授でさえ「AIが触れるのは数十年先だろう」と考えた50問が含まれます。

AI co-mathematicianはこの50問で 48%のスコア を達成しました。

この数字が何を意味するか — トップレベルの研究問題の約半分について、このシステムが部分的または完全な解法アプローチを生み出したということです。選択肢問題ではなく、構成的証明が必要なオープンエンドの問題です。

さらに面白いのはその仕組み。システムは証明を生成し、自分のレビュアーエージェントがその証明をチェックし、エラーをフラグし、ジェネレーターが修正します。この「自己修正」ループは、単なる「一度きり生成」よりはるかに信頼性が高いのです。

DeepMindは数学者に実際にこのシステムをテストしてもらいました。一人のテスターはこう言っています。「重要な洞察を見つける手は貸してくれない — でも、洞察を持った後、証明を書き上げ、詳細を埋めるのを手伝ってくれる。」

これが今、AIを研究ツールとして使う最も現実的な位置づけかもしれません。インスピレーションを代替するのではなく、実行力を増幅するのです。

あなたが「考える」、それが「書く」。

主要ソース：