オリンピック数学の金メダルレベルに達するAIとは、一体何を意味するのか?
国際数学オリンピック(IMO)および国際物理オリンピック(IPhO)は、人類の知的競技における最高水準の舞台です。こうした大会で金メダルを獲得する者は、通常、世界中の同年代の人々の中でも最も優れた知性を持つ者たちです。
AIモデルが「金メダルレベル」と主張する場合、その意味を慎重に理解する必要があります。これは、AIが実際に大会に参加して賞を受賞できるという意味ではなく、これらの大会の実際の問題に対して、AIの解答正解率が金メダル獲得ラインに達していることを意味します。
SU-01はまさにこれを実現しました——IMO 2025、USAMO 2026、およびIPhO 2024/2025において。
30Bパラメータの「洗練された」モデル
注目に値するのは、SU-01のバックボーンがわずか30Bパラメータ(うちアクティブなパラメータは3B、典型的なMoEアーキテクチャ)であること。これは、数千億パラメータ規模の巨大モデルではありません。
これは重要な示唆を含んでいます:推論タスクにおいては、単純なパラメータ数よりも、訓練手法とデータの質がより本質的に重要である可能性があるということです。
訓練レシピ:3ステップのプロセス
論文の核心的な貢献は、「シンプルかつ統一されたレシピ(simple and unified recipe)」であり、以下の3つのステップから構成されます。
第1ステップ:逆パープレキシティに基づくSFT課程
従来のSFT(監視付きファインチューニング)では、モデルに「正しい答え」を学習させます。しかしSU-01では、異なる戦略——逆パープレキシティ課程(reverse-perplexity curriculum)——を採用しています。
その直感的アイデアは次の通りです:複雑な証明問題に対しては、モデルが「結論から逆算する」探索行動を学ぶべきであり、単に前向きの推論過程を模倣するだけでは不十分である、というものです。このアプローチにより、モデルは厳密な証明探索および自己検証の行動を習得します。
第2ステップ:2段階の強化学習(RL)
- 第1段階:検証可能な報酬を用いたRL
客観的に検証可能な結果(例:数学問題の最終解答が正しいかどうか)を報酬信号として利用します。 - 第2段階:証明品質重視のRL
最終解答だけでなく、証明プロセスそのものの質も評価する、より精緻な報酬機構です。
粗い粒度の報酬から細かい粒度の報酬へと段階的に移行することで、モデルは明確な学習信号を得つつ、初期段階で過度に複雑な報酬関数に混乱されることを防ぎます。
第3ステップ:テスト時スケーリング
推論フェーズにおいて計算リソースを増加させ(より長い思考チェーン、より多くのサンプリング)、さらに解答性能を向上させます。
訓練データ量
SFTフェーズでは約34万件のsub-8K-tokenの推論トラジェクトリを用い、RLフェーズでは200ステップの学習を実施しました。30B規模のモデルにとって、このデータ量は決して膨大とはいえませんが、データの質が決定的に重要であったことは明らかです。
超長推論トラジェクトリ
SU-01は、10万トークンを超える推論トラジェクトリを安定して処理できます。これは、最も難しいオリンピック数学の問題を解く際に、モデルが「継続的に思考」できること——つまり、中間ステップを生成・検証し、数百トークンで停止してしまうことなく、長時間にわたって推論を遂行できること——を意味します。
このような長トラジェクトリ推論能力は、オリンピック数学レベルの問題解決に不可欠な条件です。IMOレベルの問題の完全な証明には、数十ステップの推論と、複数回の自己修正が必要となることがしばしばあります。
汎化能力
論文では、数学および物理学以外の科学的推論分野におけるモデルの汎化性能についても報告されています。具体的な数値はここでは詳述されていませんが、この傾向は注目に値します——数学・物理学で検証済みの訓練手法が、他の厳密な推論を要する分野へと応用可能である可能性があるのです。
総評
SU-01の意義は、特定の画期的な技術革新にあるのではなく、再現可能でエンドツーエンドの訓練フローを統合した点にあります:SFTからRL、そしてテスト時スケーリングまで、各ステップに明確な設計原則と実験的裏付けが存在します。
推論能力を持つモデルの開発を目指すチームにとって、この77ページに及ぶ技術報告書は、単なる成果の提示ではなく、むしろ実践向けのマニュアルのような存在です——「各ステップをどう実行すべきか」を丁寧に説明してくれているのです。
主な出典:
- arXiv:2605.13301 SU-01
- Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng(他27名)
- Technical Report, 77 pages