Ловушка самокоррекции Qwen3.6: почему чем больше «думает», тем хуже результат

Ловушка самокоррекции Qwen3.6: почему чем больше «думает», тем хуже результат

Ключевой вывод

У серии Qwen3.5/3.6 в режиме рассуждений существует контринтуитивный феномен: больше «мышления» ≠ лучше результат. Конкретнее, на этапе самокоррекции количество токенов мышления модели взрывается в 4-6 раз, но качество финального вывода практически не улучшается — иногда модель даже само-сомневается от правильного ответа.

Это не уникальная проблема Qwen, но проявление Qwen особенно выражено. Для пользователей, оплачивающих по токенам, это прямая трата затрат.

Описание проблемы

Типичный сценарий

Наблюдение одного разработчика:

«Переходное мышление Qwen3.5/3.6 в основном сосредоточено на этапе самокоррекции. Вывод начального рассуждения уже довольно solid, но как только начинается самокоррекция, модель начинает лихорадочно искать углы, чтобы усомниться, правильно ли она поняла — в результате контент мышления увеличивается в несколько раз, но вывод практически не улучшается.»

Сравнение данных

ФазаПотребление токеновКачество выводаТипичное поведение
Начальное рассуждение~500 токенов85-90/100Прямо даёт разумный ответ
Самокоррекция~2000-3000 токенов85-92/100Повторно сомневается в себе, вывод почти не улучшается

Ключевой факт: Фаза самокоррекции потребляет в 4-6 раз больше токенов, чем начальное рассуждение, но улучшение качества вывода обычно менее 5%.

Почему это происходит?

Механизм самокоррекции Qwen имеет недостаток дизайна:

  1. Тенденция к чрезмерному сомнению: Модель обучена «всегда перепроверять», но не имеет способности оценивать «действительно ли перепроверка нужна»
  2. Отсутствие оценки уверенности: Модель не знает, что её начальный вывод уже достаточно хорош, поэтому механически входит в процесс коррекции
  3. Коррекция ≠ улучшение: Часто «коррекция» просто повторяет уже правильные шаги рассуждения или вносит ненужную сложность

Тестовые случаи

Случай 1: Математическая задача

Промпт: «Вычислите 1234 × 5678»

ФазаСодержаниеТокены
Начальное рассуждениеПравильно вычисляет, получает 7 006 652~200
Самокоррекция«Подождите, давайте перепроверим умножение каждой цифры… хм, первая цифра… вторая цифра… (повторяет процесс проверки)… о нет, может я неправильно понял вопрос…»~1500
Финальный выводВсё равно 7 006 652-

Изменение вывода: Нет. Начальный ответ был правильным, но самокоррекция потратила в 7 раз больше токенов.

Случай 2: Генерация кода

Промпт: «Напишите функцию Python для фильтрации чётных чисел из списка»

ФазаСодержаниеТокены
Начальное рассуждениеВыдаёт [x for x in lst if x % 2 == 0]~300
Самокоррекция«Оптимален ли этот подход? Стоит ли учитывать производительность? Что если список очень большой? Использовать ли filter? Но filter менее читаем, чем списковое включение…»~2000
Финальный выводВсё равно списковое включение-

Изменение вывода: Нет. Код уже был оптимальным, но модель впала в «тревогу чрезмерной оптимизации».

Это не только проблема Qwen

Фактически, это общая проблема текущих моделей рассуждений:

МодельПроблема самокоррекцииСтепень тяжести
Qwen3.6Чрезмерная рефлексия, раздувание токенов в 4-6 раз🔴 Тяжёлая
GPT-5.5Периодическое чрезмерное рассуждение, раздувание токенов в 2-3 раза🟡 Умеренная
Claude Opus 4.7Относительно сдержанная, но всё ещё имеет избыточность🟡 Умеренная
DeepSeek V4Высокая эффективность коррекции, меньше избыточности🟢 Лёгкая

Проблема Qwen более серьёзна, возможно, связана с тем, что её обучающие данные содержат большое количество человеческих паттернов рассуждений с «повторной перепроверкой».

Рекомендации к действию

Для пользователей Qwen

  1. Отключите режим рассуждений: Для простых задач (классификация, извлечение, перевод) используйте напрямую режим без рассуждений — затраты могут снизиться на 80%
  2. Ручное прерывание: Если видите, что модель «лихорадочно само-сомневается», вручную прервите вывод и примите начальный вывод
  3. Используйте Qwen3.6-Plus: Версия Plus имеет лучшую эффективность рассуждений, чем Max — более экономична для задач, не требующих экстремальных рассуждений

Для разработчиков

Если вы используете API Qwen, можете контролировать это:

# Отключить режим рассуждений (если глубокие рассуждения не нужны)
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=messages,
    thinking_budget=0  # Отключить цепочку мышления
)

# Или ограничить бюджет мышления
response = client.chat.completions.create(
    model="qwen3.6-max",
    messages=messages,
    thinking_budget=512  # Ограничить токены мышления
)

Для команды Tongyi (если вы это читаете)

Предложения по оптимизации механизма запуска самокоррекции:

  • Добавить порог уверенности: Пропускать или упрощать самокоррекцию, когда уверенность начального рассуждения превышает 90%
  • Ввести раннее завершение: Немедленно останавливаться, когда обнаружено, что скорректированный вывод совпадает с начальным
  • Различать сложность задачи: Не запускать глубокую коррекцию для простых задач

Оценка ситуации

Эта проблема отражает ключевой вызов, стоящий перед моделями рассуждений в 2026 году: как заставить модели «знать, когда остановиться».

Текущие модели рассуждений все предполагают «чем больше думаешь, тем лучше», но это не выдерживает экономической критики — каждый дополнительный токен мышления имеет стоимость, и когда предельная доходность падает ниже нуля, продолжение мышления является пустой тратой.

Конкурентный фокус моделей рассуждений следующего поколения может сместиться от «насколько глубоко может думать» к «умению знать, когда прекратить думать». В этом отношении производительность DeepSeek V4 уже указывает на лучшее направление.