C
ChaoBro

AutoTTS:花 40 美元、160 分钟,让 LLM 自己发现最优推理策略

AutoTTS:花 40 美元、160 分钟,让 LLM 自己发现最优推理策略

现在的 test-time scaling(TTS)研究有一个尴尬的现状:每个人都在「设计」策略——什么时候让模型多想几步,什么时候该停下来,什么时候分个支。研究者凭直觉手写启发式规则,然后花大量算力去验证这些规则好不好用。

这篇论文反其道而行:与其设计策略,不如设计一个让策略自己长出来的环境。

AutoTTS 框架的核心思路很简单——把 TTS 策略的发现过程变成 controller synthesis(控制器合成)问题。先把模型的推理轨迹和探针信号预收集好,然后让 agent 在这个环境里学习:什么时候应该分支(branch)、继续(continue)、探测(probe)、剪枝(prune)、停止(stop)。

整个发现过程不需要反复调用 LLM,因为控制器是在预收集的数据上做决策的,评估成本极低。论文里有个关键设计叫 beta parameterization,把搜索空间变得 tractable,再加上 fine-grained execution trace feedback,agent 能诊断自己的 TTS 程序为什么失败。

结果很直接:在数学推理基准上,自动发现的策略在准确率-成本 tradeoff 上超过了人工设计的强基线,而且能泛化到 held-out 基准和不同模型规模。

整个过程花了多少?$39.9 和 160 分钟。

为什么值得跟

TTS 是 2026 年最热的 LLM 优化方向之一。OpenAI 的 o 系列已经在产品层面展示了 test-time compute 的价值,但策略设计始终是个手工活。AutoTTS 的思路如果成立,意味着 TTS 策略可以像训练超参数一样被自动化搜索。

实验集中在数学推理任务,策略在代码生成、创意写作等场景的泛化能力还需要验证。beta parameterization 对预收集数据的质量有依赖,这也算是个隐性成本。

代码和数据即将开源。如果你在做 LLM 推理优化,这篇论文提供了一个清晰的替代路径:不再手写规则,而是构建发现环境。

主要来源:

  • arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026