Ключевой вывод
У серии Qwen3.5/3.6 в режиме рассуждений существует контринтуитивный феномен: больше «мышления» ≠ лучше результат. Конкретнее, на этапе самокоррекции количество токенов мышления модели взрывается в 4-6 раз, но качество финального вывода практически не улучшается — иногда модель даже само-сомневается от правильного ответа.
Это не уникальная проблема Qwen, но проявление Qwen особенно выражено. Для пользователей, оплачивающих по токенам, это прямая трата затрат.
Описание проблемы
Типичный сценарий
Наблюдение одного разработчика:
«Переходное мышление Qwen3.5/3.6 в основном сосредоточено на этапе самокоррекции. Вывод начального рассуждения уже довольно solid, но как только начинается самокоррекция, модель начинает лихорадочно искать углы, чтобы усомниться, правильно ли она поняла — в результате контент мышления увеличивается в несколько раз, но вывод практически не улучшается.»
Сравнение данных
| Фаза | Потребление токенов | Качество вывода | Типичное поведение |
|---|---|---|---|
| Начальное рассуждение | ~500 токенов | 85-90/100 | Прямо даёт разумный ответ |
| Самокоррекция | ~2000-3000 токенов | 85-92/100 | Повторно сомневается в себе, вывод почти не улучшается |
Ключевой факт: Фаза самокоррекции потребляет в 4-6 раз больше токенов, чем начальное рассуждение, но улучшение качества вывода обычно менее 5%.
Почему это происходит?
Механизм самокоррекции Qwen имеет недостаток дизайна:
- Тенденция к чрезмерному сомнению: Модель обучена «всегда перепроверять», но не имеет способности оценивать «действительно ли перепроверка нужна»
- Отсутствие оценки уверенности: Модель не знает, что её начальный вывод уже достаточно хорош, поэтому механически входит в процесс коррекции
- Коррекция ≠ улучшение: Часто «коррекция» просто повторяет уже правильные шаги рассуждения или вносит ненужную сложность
Тестовые случаи
Случай 1: Математическая задача
Промпт: «Вычислите 1234 × 5678»
| Фаза | Содержание | Токены |
|---|---|---|
| Начальное рассуждение | Правильно вычисляет, получает 7 006 652 | ~200 |
| Самокоррекция | «Подождите, давайте перепроверим умножение каждой цифры… хм, первая цифра… вторая цифра… (повторяет процесс проверки)… о нет, может я неправильно понял вопрос…» | ~1500 |
| Финальный вывод | Всё равно 7 006 652 | - |
Изменение вывода: Нет. Начальный ответ был правильным, но самокоррекция потратила в 7 раз больше токенов.
Случай 2: Генерация кода
Промпт: «Напишите функцию Python для фильтрации чётных чисел из списка»
| Фаза | Содержание | Токены |
|---|---|---|
| Начальное рассуждение | Выдаёт [x for x in lst if x % 2 == 0] | ~300 |
| Самокоррекция | «Оптимален ли этот подход? Стоит ли учитывать производительность? Что если список очень большой? Использовать ли filter? Но filter менее читаем, чем списковое включение…» | ~2000 |
| Финальный вывод | Всё равно списковое включение | - |
Изменение вывода: Нет. Код уже был оптимальным, но модель впала в «тревогу чрезмерной оптимизации».
Это не только проблема Qwen
Фактически, это общая проблема текущих моделей рассуждений:
| Модель | Проблема самокоррекции | Степень тяжести |
|---|---|---|
| Qwen3.6 | Чрезмерная рефлексия, раздувание токенов в 4-6 раз | 🔴 Тяжёлая |
| GPT-5.5 | Периодическое чрезмерное рассуждение, раздувание токенов в 2-3 раза | 🟡 Умеренная |
| Claude Opus 4.7 | Относительно сдержанная, но всё ещё имеет избыточность | 🟡 Умеренная |
| DeepSeek V4 | Высокая эффективность коррекции, меньше избыточности | 🟢 Лёгкая |
Проблема Qwen более серьёзна, возможно, связана с тем, что её обучающие данные содержат большое количество человеческих паттернов рассуждений с «повторной перепроверкой».
Рекомендации к действию
Для пользователей Qwen
- Отключите режим рассуждений: Для простых задач (классификация, извлечение, перевод) используйте напрямую режим без рассуждений — затраты могут снизиться на 80%
- Ручное прерывание: Если видите, что модель «лихорадочно само-сомневается», вручную прервите вывод и примите начальный вывод
- Используйте Qwen3.6-Plus: Версия Plus имеет лучшую эффективность рассуждений, чем Max — более экономична для задач, не требующих экстремальных рассуждений
Для разработчиков
Если вы используете API Qwen, можете контролировать это:
# Отключить режим рассуждений (если глубокие рассуждения не нужны)
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=messages,
thinking_budget=0 # Отключить цепочку мышления
)
# Или ограничить бюджет мышления
response = client.chat.completions.create(
model="qwen3.6-max",
messages=messages,
thinking_budget=512 # Ограничить токены мышления
)
Для команды Tongyi (если вы это читаете)
Предложения по оптимизации механизма запуска самокоррекции:
- Добавить порог уверенности: Пропускать или упрощать самокоррекцию, когда уверенность начального рассуждения превышает 90%
- Ввести раннее завершение: Немедленно останавливаться, когда обнаружено, что скорректированный вывод совпадает с начальным
- Различать сложность задачи: Не запускать глубокую коррекцию для простых задач
Оценка ситуации
Эта проблема отражает ключевой вызов, стоящий перед моделями рассуждений в 2026 году: как заставить модели «знать, когда остановиться».
Текущие модели рассуждений все предполагают «чем больше думаешь, тем лучше», но это не выдерживает экономической критики — каждый дополнительный токен мышления имеет стоимость, и когда предельная доходность падает ниже нуля, продолжение мышления является пустой тратой.
Конкурентный фокус моделей рассуждений следующего поколения может сместиться от «насколько глубоко может думать» к «умению знать, когда прекратить думать». В этом отношении производительность DeepSeek V4 уже указывает на лучшее направление.