Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке

Вывод

Оксфордский университет и Ливерморская национальная лаборатория (LLNL) совместно опубликовали исследование бенчмарка по длинному цепочечному рассуждению. Используя GPT 5.2 в качестве тестового объекта, исследование показало, что модель достигает 95,7% точности на отдельных задачах, но когда те же задачи объединяются в многошаговые цепочки, точность падает до 9,83%.

Этот результат выявляет ключевое ограничение текущих ИИ-моделей: сильные индивидуальные способности, но системный сбой из-за накопления ошибок в многошаговых цепочках. Исследовательская группа отмечает, что это проблема, которую нельзя исправить простой оптимизацией.

Измерения тестирования

Дизайн бенчмарка

Исследовательская группа отобрала набор задач, которые GPT 5.2 может решать независимо с точностью 95,7%. Затем они организовали эти задачи в цепочку, требующую последовательного выполнения — выход каждого шага становится входом следующего.

Результат: когда эти высокоточные отдельные задачи были объединены в цепочку, общая точность упала до 9,83%. Почти идеальные способности практически полностью失效 в многошаговых сценариях.

Эффект каскадирования ошибок

Падение точности с 95,7% до 9,83% обусловлено каскадным усилением ошибок:

  • Даже 4,3% ошибок на первом шаге загрязняет входные данные для всех последующих шагов
  • По мере роста цепочки составная частота ошибок возрастает экспоненциально
  • Модель не может «самопроверяться» и «самокорректироваться» на промежуточных шагах

Почему это «не исправить»

Исследовательская группа выделяет три ключевые причины:

  1. Ограничения механизма самовнимания: архитектура Transformer размывает информацию ранних шагов через веса внимания на поздних шагах при обработке длинных цепочек
  2. Отсутствие промежуточной верификации: модель не проверяет активно корректность вывода после каждого шага, а напрямую передаёт результат следующему шагу
  3. Сдвиг распределения: даже при низкой частоте ошибок на каждом шаге распределение входных данных после многошагового связывания быстро отклоняется от распределения обучающих данных

Последствия для практического применения

СценарийУровень рискаПояснение
Отдельные вопросы/анализНизкийТочность отдельных задач остаётся очень высокой
Многошаговые рабочие процессыВысокийЧем длиннее цепочка, тем выше общая частота сбоев
Автономные агентыОчень высокийАгенты по сути являются длинными цепочками рассуждений и нуждаются в дополнительных механизмах восстановления после ошибок
Конвейеры научных открытийВысокийМногоэтапные исследовательские процессы требуют человеческого вмешательства на ключевых узлах

Рекомендации по выбору

  • Сценарии отдельных задач: текущих моделей достаточно — 95,7% точности приемлемо в большинстве контекстов
  • Многошаговые рабочие процессы: добавляйте человеческую проверку или кросс-валидацию на критических узлах; не полагайтесь полностью на автоматическое связывание
  • Разработка агентов: обязательно включайте механизмы обнаружения ошибок и отката; не предполагайте, что цепочки будут выполняться гладко до конца
  • Научные/инженерные решения: понимайте свойство «цепочечного коллапса» моделей и устанавливайте контрольные точки в критических процессах

Основные источники