AutoTTS：LLMに推論戦略を自律発見させる、わずか40ドルで

Test-time scaling（TTS）研究には厄介な現状がある：誰もが「戦略を設計」している。いつモデルにより深く考えさせるか、いつ分岐させるか、いつ止めるか。研究者は直感でヒューリスティックを書き、その良し悪しを検証するために大量の算力を費やす。

この論文のアプローチは逆を行く：戦略を設計するのではなく、戦略が自然に生まれる環境を設計する。

AutoTTSフレームワークの核心はシンプル——TTS戦略の発見プロセスをcontroller synthesis（コントローラ合成）問題として定式化する。モデルの推論軌跡とプローブ信号を事前に収集し、agentがこの環境内でいつ分岐・継続・プローブ・枝刈り・停止すべきかを学習させる。

発見プロセスはLLMの繰り返し呼び出しを必要としない。コントローラは事前収集データ上で意思決定するため、評価コストが極めて低い。beta parameterizationというキーデザインが探索空間を扱いやすくし、fine-grained execution trace feedbackによってagentは自分のTTSプログラムがなぜ失敗したかを診断できる。

結果：数学的推論ベンチマークにおいて、自動発見された戦略が人手設計の強力なベースラインをaccuracy-cost tradeoffで上回り、held-outベンチマークや異なるモデルスケールにも汎化した。

总コストは？$39.9と160分。

追う価値がある理由

TTSは2026年最もホットなLLM最適化方向の一つ。OpenAIのoシリーズはすでに製品レベルでtest-time computeの価値を示しているが、戦略設計は依然として手工業。AutoTTSのアプローチが成立すれば、TTS戦略は訓練ハイパーパラメータのように自動検索可能になることを意味する。

注意点：実験は数学的推論タスクに集中しており、コード生成やクリエイティブライティングでの汎化能力は未検証。beta parameterizationは事前収集データの品質に依存するという隠れたコストもある。

コードとデータはオープンソース予定。LLM推論最適化に取り組んでいるなら、この論文は明確な代替パスを示している：ルールを手書きするのではなく、発見環境を構築する。

主要ソース：

arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026

追う価値がある理由

関連コンテンツ

ACC：エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

RLVRにおけるトークンレベル信用割り当ての再考：DelTAが識別器視点で挑む

MLLMは人を正確に読めるか？MM-OCEANが明らかにする「正解の51%は推測」