Test-time scaling(TTS)研究には厄介な現状がある:誰もが「戦略を設計」している。いつモデルにより深く考えさせるか、いつ分岐させるか、いつ止めるか。研究者は直感でヒューリスティックを書き、その良し悪しを検証するために大量の算力を費やす。
この論文のアプローチは逆を行く:戦略を設計するのではなく、戦略が自然に生まれる環境を設計する。
AutoTTSフレームワークの核心はシンプル——TTS戦略の発見プロセスをcontroller synthesis(コントローラ合成)問題として定式化する。モデルの推論軌跡とプローブ信号を事前に収集し、agentがこの環境内でいつ分岐・継続・プローブ・枝刈り・停止すべきかを学習させる。
発見プロセスはLLMの繰り返し呼び出しを必要としない。コントローラは事前収集データ上で意思決定するため、評価コストが極めて低い。beta parameterizationというキーデザインが探索空間を扱いやすくし、fine-grained execution trace feedbackによってagentは自分のTTSプログラムがなぜ失敗したかを診断できる。
結果:数学的推論ベンチマークにおいて、自動発見された戦略が人手設計の強力なベースラインをaccuracy-cost tradeoffで上回り、held-outベンチマークや異なるモデルスケールにも汎化した。
总コストは?$39.9と160分。
追う価値がある理由
TTSは2026年最もホットなLLM最適化方向の一つ。OpenAIのoシリーズはすでに製品レベルでtest-time computeの価値を示しているが、戦略設計は依然として手工業。AutoTTSのアプローチが成立すれば、TTS戦略は訓練ハイパーパラメータのように自動検索可能になることを意味する。
注意点:実験は数学的推論タスクに集中しており、コード生成やクリエイティブライティングでの汎化能力は未検証。beta parameterizationは事前収集データの品質に依存するという隠れたコストもある。
コードとデータはオープンソース予定。LLM推論最適化に取り組んでいるなら、この論文は明確な代替パスを示している:ルールを手書きするのではなく、発見環境を構築する。
主要ソース:
- arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026