Google 新论文：让 LLM 自己发现更好的推理策略，"Agentic Discovery"是什么路子？

过去两年，"测试时扩展"（Test-Time Scaling）成了 LLM 领域最热门的方向之一。思路很直观：给模型更多的推理时间——多步思考、多路径投票、自我修正——准确率就能上去。

但一个核心问题一直没解决好：用多少推理预算？用什么策略？怎么组合？

现在 Google 的研究团队给出了一种 meta 级别的解法：让 LLM 自己去发现。

论文叫 "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"

发表在 Hugging Face Daily Papers 上，53 个 upvotes。论文的核心想法可以用一句话概括：训练一个 LLM agent，让它通过实验来搜索最优的 test-time scaling 策略，而不是靠人类研究员手工设计。

这不是一个新鲜的哲学命题——"让 AI 改进 AI"——但在 test-time scaling 这个具体场景里，它有几个实际意义。

目前主流的 test-time scaling 方法包括：

这些方法都有一个共同问题：超参数需要人工调。 CoT 要多长？Self-Consistency 要几条路径？什么时候该用 Best-of-N，什么时候该用 Iterative Refinement？

Google 的论文指出，这些选择高度依赖于具体的任务和模型。没有一个放之四海皆准的配置。而人工搜索这个配置空间，成本太高。

论文的核心是一个 agent-based 的搜索框架：

关键点在于：这个过程是自动化的。人类不需要手动设计"什么时候用 CoT，什么时候用 Self-Consistency"的规则——agent 自己通过实验学到这些。

从研究角度看，这篇论文的价值在于它提出了一个框架性的思路：与其让人类不断发明新的推理策略，不如让模型自己去找。

这有点像 AutoML 在神经网络架构搜索（NAS）上做过的事情——把架构设计的任务从人类转移到自动化系统。只不过这次的对象不是网络架构，而是推理策略。

但 test-time scaling 的搜索空间比 NAS 更复杂。NAS 的搜索空间虽然大，但每个候选架构的训练和评估是确定性的。而 test-time scaling 的效果高度随机——同一个策略在同一个问题上跑两次，结果可能不同。

论文的思路很好，但有几个现实问题需要注意：

第一，搜索成本高。 即使有 agent 来做自动化搜索，每次策略评估都需要多次推理调用。如果目标模型是大参数量的，这个成本不低。

第二，泛化能力存疑。 agent 在一个任务集上发现的策略模式，能否泛化到未见过的任务？论文需要在更多 benchmark 上验证。

第三，策略的"可解释性"。 如果 agent 发现了一个有效的策略组合，但这个组合的逻辑人类无法理解，那它在实际应用中就很难被信任和部署。

这个方向跟最近几个热门研究有交叉：

o1/o3 的"长思考"模式：OpenAI 的思路是固定一个长推理策略，而 Google 的思路是让策略本身可发现和可适配
RLVR（Reinforcement Learning with Verifiable Rewards）：RLVR 是在训练时优化推理能力，而 Agentic Discovery 是在测试时优化推理策略。两者可以互补

这篇论文提供了一个有意思的 meta 视角。它不是提出一个新的推理算法，而是提出了一种发现推理算法的方法。

如果这个框架能跑通，未来的 LLM 推理优化可能会从"研究员手工设计"转向"自动化搜索+人工验证"的模式。但这需要搜索效率的大幅提升和更强的泛化验证。

目前来看，这是一个值得跟踪的方向，但离生产级应用还有距离。

主要来源：