AutoTTS：花 40 美元、160 分钟，让 LLM 自己发现最优推理策略

现在的 test-time scaling（TTS）研究有一个尴尬的现状：每个人都在「设计」策略——什么时候让模型多想几步，什么时候该停下来，什么时候分个支。研究者凭直觉手写启发式规则，然后花大量算力去验证这些规则好不好用。

这篇论文反其道而行：与其设计策略，不如设计一个让策略自己长出来的环境。

AutoTTS 框架的核心思路很简单——把 TTS 策略的发现过程变成 controller synthesis（控制器合成）问题。先把模型的推理轨迹和探针信号预收集好，然后让 agent 在这个环境里学习：什么时候应该分支（branch）、继续（continue）、探测（probe）、剪枝（prune）、停止（stop）。

整个发现过程不需要反复调用 LLM，因为控制器是在预收集的数据上做决策的，评估成本极低。论文里有个关键设计叫 beta parameterization，把搜索空间变得 tractable，再加上 fine-grained execution trace feedback，agent 能诊断自己的 TTS 程序为什么失败。

结果很直接：在数学推理基准上，自动发现的策略在准确率-成本 tradeoff 上超过了人工设计的强基线，而且能泛化到 held-out 基准和不同模型规模。

整个过程花了多少？$39.9 和 160 分钟。

为什么值得跟

TTS 是 2026 年最热的 LLM 优化方向之一。OpenAI 的 o 系列已经在产品层面展示了 test-time compute 的价值，但策略设计始终是个手工活。AutoTTS 的思路如果成立，意味着 TTS 策略可以像训练超参数一样被自动化搜索。

实验集中在数学推理任务，策略在代码生成、创意写作等场景的泛化能力还需要验证。beta parameterization 对预收集数据的质量有依赖，这也算是个隐性成本。

代码和数据即将开源。如果你在做 LLM 推理优化，这篇论文提供了一个清晰的替代路径：不再手写规则，而是构建发现环境。

主要来源：

arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026

为什么值得跟

Related

Aider 44K 星：终端里的 AI 结对编程，到底好不好用？

Cline：6 万星的自主编程 Agent，SDK 化之后到底能不能打？

Codegraph：给 Claude Code 建一个本地知识图谱，token 和工具调用双双减少