У исследований test-time scaling (TTS) есть неудобная проблема: все «проектируют» стратегии. Когда модели стоит думать дольше? Когда ветвиться? Когда остановиться? Исследователи пишут эвристики на основе интуиции, а затем тратят массу вычислений на их проверку.
Эта статья от команды Chengsong Huang идёт обратным путём: вместо проектирования стратегий — проектируйте среду, в которой стратегии вырастают сами.
Ключевая идея фреймворка AutoTTS проста — сформулировать обнаружение TTS-стратегий как задачу синтеза контроллера. Соберите траектории рассуждений модели и сигналы зондирования заранее, а затем позвольте агенту учиться в этой среде: когда ветвиться, продолжать, зондировать, отсекать или останавливаться.
Процесс обнаружения не требует повторных вызовов LLM — контроллер принимает решения на предсобраннных данных, что делает оценку крайне дешёвой. Ключевой дизайн beta parameterization делает пространство поиска управляемым, а fine-grained execution trace feedback позволяет агенту диагностировать, почему его TTS-программа не сработала.
Результат: на бенчмарках математического рассуждения автоматически обнаруженные стратегии превзошли сильные ручные базовые линии по tradeoff точности и стоимости, и обобщились на held-out бенчмарки и другие масштабы моделей.
Общая стоимость? $39.9 и 160 минут.
Почему это важно
TTS — одно из самых горячих направлений оптимизации LLM в 2026 году. o-серия от OpenAI уже продемонстрировала ценность test-time compute на продуктовом уровне, но дизайн стратегий остаётся ремеслом. Если подход AutoTTS подтвердится, стратегии TTS можно будет искать автоматически, как гиперпараметры обучения.
Ограничения: эксперименты сосредоточены на задачах математического рассуждения — обобщение на генерацию кода и креативное письмо не проверено. Beta parameterization зависит от качества предсобраннных данных, что является скрытой стоимостью.
Код и данные будут открыты. Если вы занимаетесь оптимизацией рассуждений LLM, эта статья предлагает чёткий альтернативный путь: перестаньте писать правила вручную, начните строить среды обнаружения.
Источники:
- arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026