Ловушка самокоррекции Qwen3.6: почему чем больше «думает», тем хуже результат

Ключевой вывод

У серии Qwen3.5/3.6 в режиме рассуждений существует контринтуитивный феномен: больше «мышления» ≠ лучше результат. Конкретнее, на этапе самокоррекции количество токенов мышления модели взрывается в 4-6 раз, но качество финального вывода практически не улучшается — иногда модель даже само-сомневается от правильного ответа.

Это не уникальная проблема Qwen, но проявление Qwen особенно выражено. Для пользователей, оплачивающих по токенам, это прямая трата затрат.

Описание проблемы

Типичный сценарий

Наблюдение одного разработчика:

«Переходное мышление Qwen3.5/3.6 в основном сосредоточено на этапе самокоррекции. Вывод начального рассуждения уже довольно solid, но как только начинается самокоррекция, модель начинает лихорадочно искать углы, чтобы усомниться, правильно ли она поняла — в результате контент мышления увеличивается в несколько раз, но вывод практически не улучшается.»

Сравнение данных

Фаза	Потребление токенов	Качество вывода	Типичное поведение
Начальное рассуждение	~500 токенов	85-90/100	Прямо даёт разумный ответ
Самокоррекция	~2000-3000 токенов	85-92/100	Повторно сомневается в себе, вывод почти не улучшается

Ключевой факт: Фаза самокоррекции потребляет в 4-6 раз больше токенов, чем начальное рассуждение, но улучшение качества вывода обычно менее 5%.

Почему это происходит?

Механизм самокоррекции Qwen имеет недостаток дизайна:

Тенденция к чрезмерному сомнению: Модель обучена «всегда перепроверять», но не имеет способности оценивать «действительно ли перепроверка нужна»
Отсутствие оценки уверенности: Модель не знает, что её начальный вывод уже достаточно хорош, поэтому механически входит в процесс коррекции
Коррекция ≠ улучшение: Часто «коррекция» просто повторяет уже правильные шаги рассуждения или вносит ненужную сложность

Тестовые случаи

Случай 1: Математическая задача

Промпт: «Вычислите 1234 × 5678»

Фаза	Содержание	Токены
Начальное рассуждение	Правильно вычисляет, получает 7 006 652	~200
Самокоррекция	«Подождите, давайте перепроверим умножение каждой цифры… хм, первая цифра… вторая цифра… (повторяет процесс проверки)… о нет, может я неправильно понял вопрос…»	~1500
Финальный вывод	Всё равно 7 006 652	-

Изменение вывода: Нет. Начальный ответ был правильным, но самокоррекция потратила в 7 раз больше токенов.

Случай 2: Генерация кода

Промпт: «Напишите функцию Python для фильтрации чётных чисел из списка»

Фаза	Содержание	Токены
Начальное рассуждение	Выдаёт `[x for x in lst if x % 2 == 0]`	~300
Самокоррекция	«Оптимален ли этот подход? Стоит ли учитывать производительность? Что если список очень большой? Использовать ли filter? Но filter менее читаем, чем списковое включение…»	~2000
Финальный вывод	Всё равно списковое включение	-

Изменение вывода: Нет. Код уже был оптимальным, но модель впала в «тревогу чрезмерной оптимизации».

Это не только проблема Qwen

Фактически, это общая проблема текущих моделей рассуждений:

Модель	Проблема самокоррекции	Степень тяжести
Qwen3.6	Чрезмерная рефлексия, раздувание токенов в 4-6 раз	🔴 Тяжёлая
GPT-5.5	Периодическое чрезмерное рассуждение, раздувание токенов в 2-3 раза	🟡 Умеренная
Claude Opus 4.7	Относительно сдержанная, но всё ещё имеет избыточность	🟡 Умеренная
DeepSeek V4	Высокая эффективность коррекции, меньше избыточности	🟢 Лёгкая

Проблема Qwen более серьёзна, возможно, связана с тем, что её обучающие данные содержат большое количество человеческих паттернов рассуждений с «повторной перепроверкой».

Рекомендации к действию

Для пользователей Qwen

Отключите режим рассуждений: Для простых задач (классификация, извлечение, перевод) используйте напрямую режим без рассуждений — затраты могут снизиться на 80%
Ручное прерывание: Если видите, что модель «лихорадочно само-сомневается», вручную прервите вывод и примите начальный вывод
Используйте Qwen3.6-Plus: Версия Plus имеет лучшую эффективность рассуждений, чем Max — более экономична для задач, не требующих экстремальных рассуждений

Для разработчиков

Если вы используете API Qwen, можете контролировать это:

# Отключить режим рассуждений (если глубокие рассуждения не нужны)
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=messages,
    thinking_budget=0  # Отключить цепочку мышления
)

# Или ограничить бюджет мышления
response = client.chat.completions.create(
    model="qwen3.6-max",
    messages=messages,
    thinking_budget=512  # Ограничить токены мышления
)

Для команды Tongyi (если вы это читаете)

Предложения по оптимизации механизма запуска самокоррекции:

Добавить порог уверенности: Пропускать или упрощать самокоррекцию, когда уверенность начального рассуждения превышает 90%
Ввести раннее завершение: Немедленно останавливаться, когда обнаружено, что скорректированный вывод совпадает с начальным
Различать сложность задачи: Не запускать глубокую коррекцию для простых задач

Оценка ситуации

Эта проблема отражает ключевой вызов, стоящий перед моделями рассуждений в 2026 году: как заставить модели «знать, когда остановиться».

Текущие модели рассуждений все предполагают «чем больше думаешь, тем лучше», но это не выдерживает экономической критики — каждый дополнительный токен мышления имеет стоимость, и когда предельная доходность падает ниже нуля, продолжение мышления является пустой тратой.

Конкурентный фокус моделей рассуждений следующего поколения может сместиться от «насколько глубоко может думать» к «умению знать, когда прекратить думать». В этом отношении производительность DeepSeek V4 уже указывает на лучшее направление.