Способности LLM к рассуждениям становятся всё мощнее, но их стоимость также растёт. Чтобы заставить модель «думать глубже», обычно увеличивают количество сэмплов или удлиняют цепочки рассуждений — однако это напрямую означает больше токенов, более высокие затраты и меньшую скорость.
Существует ли способ сохранить качество рассуждений, при этом значительно снизив затраты?
Статья Dual-Dimensional Consistency (DDC), поданная 14 мая, предлагает решение, которое сразу привлекает внимание.
В чём проблема
У существующих стратегий масштабирования во время вывода есть две общие проблемы:
Методы консенсуса по ширине (сэмплирование нескольких кандидатов и последующее голосование) склонны усиливать галлюцинации — если большинство сэмплов движутся в одном ошибочном направлении, механизм голосования лишь «подтвердит» эту ошибку.
Методы отсечения по глубине (раннее завершение слишком длинных цепочек рассуждений) могут слишком рано обрывать сложные, но правильные пути рассуждений.
Проще говоря: расширение боится галлюцинаций, а углубление — пустой траты ресурсов. DDC стремится решить обе проблемы одновременно.
Как работает DDC
DDC внедряет два ключевых компонента:
Байесовский протокол, взвешенный по уверенности (Confidence-Weighted Bayesian Protocol): вместо простого голосования используется взвешенная агрегация на основе уверенности каждого пути рассуждений. Благодаря этому, даже если несколько путей движутся в одном направлении, но их общая уверенность низка, система не будет слепо подтверждать результат.
Стратифицированное отсечение с учетом тенденций (Trend-Aware Stratified Pruning): вместо бездумного обрезания длинных цепочек рассуждений анализируется динамика их качества. Если длинная цепочка ещё не выдала результат, но качество растёт, она сохраняется; если качество падает, она без колебаний отсекается.
Эти два компонента работают в связке, образуя замкнутый цикл: вычислительные ресурсы концентрируются на высококачественных путях рассуждений, что позволяет отфильтровывать галлюцинации и одновременно ускорять достижение консенсуса.
Результаты
На пяти бенчмарках DDC, сохраняя или превосходя точность сильных базовых моделей, снижает потребление токенов более чем в 10 раз (свыше 10x reduction). При этом данный эффект наблюдается на различных архитектурах LLM.
Показатель в 10 раз является впечатляющим для области оптимизации вывода. Обычно экономия в 30–50% уже считается результатом, достойным публикации.
Авторы
Статья подготовлена исследователями Bo Li, Hang Yan и коллегами. Подана 14 мая 2026 года.
Практическое значение
Для команд, использующих LLM для сложных рассуждений в производственной среде, привлекательность DDC очевидна: при том же бюджете можно выполнить больше запросов на вывод; либо выполнить то же количество запросов с меньшими затратами.
Масштабирование во время вывода (inference-time scaling) — одно из самых горячих направлений исследований в 2026 году. Серии o1/o3 от OpenAI, R1 от DeepSeek и Gemini Thinking от Google используют схожие подходы. Вклад DDC заключается в том, чтобы сделать этот путь более экономичным.