Гибридный решатель Qwen 3.6: Двухмозговое рассуждение с моделью 4B + моделью 35B

Гибридный решатель Qwen 3.6: Двухмозговое рассуждение с моделью 4B + моделью 35B

Что произошло

Команда Qwen в начале мая 2026 года выпустила не имеющую аналогов гибридную архитектуру вывода — объединение малой модели на 4B параметров и большой модели на 35B параметров через новый решатель (solver) и вспомогательное обучение (auxiliary training).

Это не простая дистилляция модели или перенос знаний, а двухмозговая коллаборативная система: обе модели участвуют в процессе рассуждения одновременно, каждая вносит свой уровень понимания.

Разбор архитектуры

Почему 4B + 35B?

РольМодельЗадачаПараметры
Быстрый мыслительQwen-4BРаспознавание паттернов, здравый смысл, быстрая фильтрация4B
Глубокий аналитикQwen-35BСложная логика, дальние рассуждения, точная верификация35B

Такое разделение труда имитирует человеческое мышление «интуиция → обдумывание» по двойной системе (система 1 / система 2 Даниэля Канемана):

  1. Система 1 (модель 4B): Быстро даёт первоначальное суждение, отфильтровывает явно нерелевантные пути
  2. Система 2 (модель 35B): Глубоко проверяет и уточняет кандидатные решения Системы 1

Роль нового решателя

Традиционные гибридные методы (каскад, early-exit) являются последовательными — сначала запускается малая модель, затем, при неудовлетворённости, большая.

Новый решатель Qwen обеспечивает настоящую параллельную коллаборацию:

  • Обе модели одновременно обрабатывают один и тот же ввод
  • Решатель обменивается информацией и объединяет внимание на промежуточных слоях
  • Вспомогательное обучение гарантирует согласованность пространств представлений обеих моделей

Производительность

По данным предварительных тестов сообщества:

БенчмаркТолько Qwen-35BГибрид (4B+35B)Улучшение
MATH78,2%81,6%+3,4%
GSM8K91,3%93,1%+1,8%
Генерация кода (HumanEval)76,8%79,2%+2,4%
Задержка вывода (P50)2,1 с2,4 с+14%

Ключевой компромисс: задержка увеличивается примерно на 14%, но при этом достигается значительное улучшение на 2-3% в задачах математики и программирования, требующих глубокого рассуждения. Для сценариев, не требующих ультранизкой задержки, это весьма выгодный компромисс.

Почему это важно

1. Разрушение интуиции «чем больше, тем лучше»

Долгое время отрасль верила в закон масштабирования: «больше параметров — больше возможностей». Но эта архитектура демонстрирует:

Умное архитектурное проектирование может достичь более сильных результатов с меньшим количеством параметров.

Гибридная система на 39B параметров (35B + 4B) уже приближается к производительности одиночных моделей на 70B+ в задачах рассуждения.

2. Архитектурная инновация от сообщества открытого кода

Это не просто накопление параметров, а инновация на уровне архитектуры. Для команд, которые не могут позволить себе модели со сотнями миллиардов параметров, этот гибридный подход предоставляет новое направление оптимизации.

3. Завершение продуктовой линейки Qwen 3.6

Серия Qwen 3.6 теперь имеет три чёткие продуктовые линии:

ПродуктАрхитектураПозиционирование
Qwen 3.6 Max Preview1T MoE (закрытый API)Флагманские возможности
Qwen 3.6-27BПлотная (открытый код)Развёртывание на одной карте
Qwen 3.6 Гибрид (4B+35B)Двухмозговое сотрудничество (открытый код)Усиление рассуждений

Рекомендации к действию

  • Если ваш сценарий сосредоточен на математике/логическом рассуждении: Гибридная архитектура заслуживает внимания — улучшение на 2-3% имеет большое значение в соревнованиях и исследованиях
  • Если вы приоритизируете низкую задержку: Версия 27B более подходит
  • Если вы строите Agent-системы: Используйте гибридную архитектуру как слой планировщика, а 27B как слой исполнителя для более мощного конвейера рассуждений

Источники

  • Официальный твит QwenLM (2026-05-02)
  • Блог Qwen: qwenlm.github.io
  • Сводка бенчмарков сообщества