Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

Способности LLM к рассуждениям становятся всё мощнее, но их стоимость также растёт. Чтобы заставить модель «думать глубже», обычно увеличивают количество сэмплов или удлиняют цепочки рассуждений — однако это напрямую означает больше токенов, более высокие затраты и меньшую скорость.

Существует ли способ сохранить качество рассуждений, при этом значительно снизив затраты?

Статья Dual-Dimensional Consistency (DDC), поданная 14 мая, предлагает решение, которое сразу привлекает внимание.

В чём проблема

У существующих стратегий масштабирования во время вывода есть две общие проблемы:

Методы консенсуса по ширине (сэмплирование нескольких кандидатов и последующее голосование) склонны усиливать галлюцинации — если большинство сэмплов движутся в одном ошибочном направлении, механизм голосования лишь «подтвердит» эту ошибку.

Методы отсечения по глубине (раннее завершение слишком длинных цепочек рассуждений) могут слишком рано обрывать сложные, но правильные пути рассуждений.

Проще говоря: расширение боится галлюцинаций, а углубление — пустой траты ресурсов. DDC стремится решить обе проблемы одновременно.

Как работает DDC

DDC внедряет два ключевых компонента:

Байесовский протокол, взвешенный по уверенности (Confidence-Weighted Bayesian Protocol): вместо простого голосования используется взвешенная агрегация на основе уверенности каждого пути рассуждений. Благодаря этому, даже если несколько путей движутся в одном направлении, но их общая уверенность низка, система не будет слепо подтверждать результат.
Стратифицированное отсечение с учетом тенденций (Trend-Aware Stratified Pruning): вместо бездумного обрезания длинных цепочек рассуждений анализируется динамика их качества. Если длинная цепочка ещё не выдала результат, но качество растёт, она сохраняется; если качество падает, она без колебаний отсекается.

Эти два компонента работают в связке, образуя замкнутый цикл: вычислительные ресурсы концентрируются на высококачественных путях рассуждений, что позволяет отфильтровывать галлюцинации и одновременно ускорять достижение консенсуса.

Результаты

На пяти бенчмарках DDC, сохраняя или превосходя точность сильных базовых моделей, снижает потребление токенов более чем в 10 раз (свыше 10x reduction). При этом данный эффект наблюдается на различных архитектурах LLM.

Показатель в 10 раз является впечатляющим для области оптимизации вывода. Обычно экономия в 30–50% уже считается результатом, достойным публикации.

Авторы

Статья подготовлена исследователями Bo Li, Hang Yan и коллегами. Подана 14 мая 2026 года.

Практическое значение

Для команд, использующих LLM для сложных рассуждений в производственной среде, привлекательность DDC очевидна: при том же бюджете можно выполнить больше запросов на вывод; либо выполнить то же количество запросов с меньшими затратами.

Масштабирование во время вывода (inference-time scaling) — одно из самых горячих направлений исследований в 2026 году. Серии o1/o3 от OpenAI, R1 от DeepSeek и Gemini Thinking от Google используют схожие подходы. Вклад DDC заключается в том, чтобы сделать этот путь более экономичным.

В чём проблема

Как работает DDC

Результаты

Авторы

Практическое значение

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов

MemLens: NVIDIA создала бенчмарк для оценки долгосрочной памяти мультимодальных больших моделей