AutoTTS: как LLM самостоятельно находит оптимальную стратегию рассуждений за $40

У исследований test-time scaling (TTS) есть неудобная проблема: все «проектируют» стратегии. Когда модели стоит думать дольше? Когда ветвиться? Когда остановиться? Исследователи пишут эвристики на основе интуиции, а затем тратят массу вычислений на их проверку.

Эта статья от команды Chengsong Huang идёт обратным путём: вместо проектирования стратегий — проектируйте среду, в которой стратегии вырастают сами.

Ключевая идея фреймворка AutoTTS проста — сформулировать обнаружение TTS-стратегий как задачу синтеза контроллера. Соберите траектории рассуждений модели и сигналы зондирования заранее, а затем позвольте агенту учиться в этой среде: когда ветвиться, продолжать, зондировать, отсекать или останавливаться.

Процесс обнаружения не требует повторных вызовов LLM — контроллер принимает решения на предсобраннных данных, что делает оценку крайне дешёвой. Ключевой дизайн beta parameterization делает пространство поиска управляемым, а fine-grained execution trace feedback позволяет агенту диагностировать, почему его TTS-программа не сработала.

Результат: на бенчмарках математического рассуждения автоматически обнаруженные стратегии превзошли сильные ручные базовые линии по tradeoff точности и стоимости, и обобщились на held-out бенчмарки и другие масштабы моделей.

Общая стоимость? $39.9 и 160 минут.

Почему это важно

TTS — одно из самых горячих направлений оптимизации LLM в 2026 году. o-серия от OpenAI уже продемонстрировала ценность test-time compute на продуктовом уровне, но дизайн стратегий остаётся ремеслом. Если подход AutoTTS подтвердится, стратегии TTS можно будет искать автоматически, как гиперпараметры обучения.

Ограничения: эксперименты сосредоточены на задачах математического рассуждения — обобщение на генерацию кода и креативное письмо не проверено. Beta parameterization зависит от качества предсобраннных данных, что является скрытой стоимостью.

Код и данные будут открыты. Если вы занимаетесь оптимизацией рассуждений LLM, эта статья предлагает чёткий альтернативный путь: перестаньте писать правила вручную, начните строить среды обнаружения.

Источники:

arXiv:2605.08083, "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling", Tong Zheng et al., May 2026

Почему это важно

Похожие материалы

Aider на 44K звёзд: AI-парное программирование в терминале — работает ли на самом деле?

Cline на 60K звёзд: автономный агент для программирования переходит на SDK — стоит ли внимания?

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов