过去两年,"测试时扩展"(Test-Time Scaling)成了 LLM 领域最热门的方向之一。思路很直观:给模型更多的推理时间——多步思考、多路径投票、自我修正——准确率就能上去。
但一个核心问题一直没解决好:用多少推理预算?用什么策略?怎么组合?
现在 Google 的研究团队给出了一种 meta 级别的解法:让 LLM 自己去发现。
论文叫 "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"
发表在 Hugging Face Daily Papers 上,53 个 upvotes。论文的核心想法可以用一句话概括:训练一个 LLM agent,让它通过实验来搜索最优的 test-time scaling 策略,而不是靠人类研究员手工设计。
这不是一个新鲜的哲学命题——"让 AI 改进 AI"——但在 test-time scaling 这个具体场景里,它有几个实际意义。
现有的 test-time scaling 有什么问题
目前主流的 test-time scaling 方法包括:
- Chain-of-Thought(CoT):让模型一步步思考
- Self-Consistency:生成多条推理路径,投票取多数
- Best-of-N:生成 N 个答案,选最好的
- Iterative Refinement:让模型自我修正
这些方法都有一个共同问题:超参数需要人工调。 CoT 要多长?Self-Consistency 要几条路径?什么时候该用 Best-of-N,什么时候该用 Iterative Refinement?
Google 的论文指出,这些选择高度依赖于具体的任务和模型。没有一个放之四海皆准的配置。而人工搜索这个配置空间,成本太高。
Agentic Discovery 怎么做
论文的核心是一个 agent-based 的搜索框架:
- 定义策略空间:包括不同的推理策略及其参数组合
- Agent 实验:LLM agent 自动在策略空间中进行实验,对不同的策略组合进行评估
- 反馈学习:根据实验结果更新策略搜索方向
- 泛化发现:发现可以跨任务泛化的策略模式
关键点在于:这个过程是自动化的。人类不需要手动设计"什么时候用 CoT,什么时候用 Self-Consistency"的规则——agent 自己通过实验学到这些。
这个方向的意义
从研究角度看,这篇论文的价值在于它提出了一个框架性的思路:与其让人类不断发明新的推理策略,不如让模型自己去找。
这有点像 AutoML 在神经网络架构搜索(NAS)上做过的事情——把架构设计的任务从人类转移到自动化系统。只不过这次的对象不是网络架构,而是推理策略。
但 test-time scaling 的搜索空间比 NAS 更复杂。NAS 的搜索空间虽然大,但每个候选架构的训练和评估是确定性的。而 test-time scaling 的效果高度随机——同一个策略在同一个问题上跑两次,结果可能不同。
实际的局限
论文的思路很好,但有几个现实问题需要注意:
第一,搜索成本高。 即使有 agent 来做自动化搜索,每次策略评估都需要多次推理调用。如果目标模型是大参数量的,这个成本不低。
第二,泛化能力存疑。 agent 在一个任务集上发现的策略模式,能否泛化到未见过的任务?论文需要在更多 benchmark 上验证。
第三,策略的"可解释性"。 如果 agent 发现了一个有效的策略组合,但这个组合的逻辑人类无法理解,那它在实际应用中就很难被信任和部署。
跟其他方向的关系
这个方向跟最近几个热门研究有交叉:
- o1/o3 的"长思考"模式:OpenAI 的思路是固定一个长推理策略,而 Google 的思路是让策略本身可发现和可适配
- RLVR(Reinforcement Learning with Verifiable Rewards):RLVR 是在训练时优化推理能力,而 Agentic Discovery 是在测试时优化推理策略。两者可以互补
判断
这篇论文提供了一个有意思的 meta 视角。它不是提出一个新的推理算法,而是提出了一种发现推理算法的方法。
如果这个框架能跑通,未来的 LLM 推理优化可能会从"研究员手工设计"转向"自动化搜索+人工验证"的模式。但这需要搜索效率的大幅提升和更强的泛化验证。
目前来看,这是一个值得跟踪的方向,但离生产级应用还有距离。
主要来源:
- Hugging Face Daily Papers - May 11, 2026
- Google Research, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"