Гибридный решатель Qwen 3.6: Двухмозговое рассуждение с моделью 4B + моделью 35B

Что произошло

Команда Qwen в начале мая 2026 года выпустила не имеющую аналогов гибридную архитектуру вывода — объединение малой модели на 4B параметров и большой модели на 35B параметров через новый решатель (solver) и вспомогательное обучение (auxiliary training).

Это не простая дистилляция модели или перенос знаний, а двухмозговая коллаборативная система: обе модели участвуют в процессе рассуждения одновременно, каждая вносит свой уровень понимания.

Разбор архитектуры

Почему 4B + 35B?

Роль	Модель	Задача	Параметры
Быстрый мыслитель	Qwen-4B	Распознавание паттернов, здравый смысл, быстрая фильтрация	4B
Глубокий аналитик	Qwen-35B	Сложная логика, дальние рассуждения, точная верификация	35B

Такое разделение труда имитирует человеческое мышление «интуиция → обдумывание» по двойной системе (система 1 / система 2 Даниэля Канемана):

Система 1 (модель 4B): Быстро даёт первоначальное суждение, отфильтровывает явно нерелевантные пути
Система 2 (модель 35B): Глубоко проверяет и уточняет кандидатные решения Системы 1

Роль нового решателя

Традиционные гибридные методы (каскад, early-exit) являются последовательными — сначала запускается малая модель, затем, при неудовлетворённости, большая.

Новый решатель Qwen обеспечивает настоящую параллельную коллаборацию:

Обе модели одновременно обрабатывают один и тот же ввод
Решатель обменивается информацией и объединяет внимание на промежуточных слоях
Вспомогательное обучение гарантирует согласованность пространств представлений обеих моделей

Производительность

По данным предварительных тестов сообщества:

Бенчмарк	Только Qwen-35B	Гибрид (4B+35B)	Улучшение
MATH	78,2%	81,6%	+3,4%
GSM8K	91,3%	93,1%	+1,8%
Генерация кода (HumanEval)	76,8%	79,2%	+2,4%
Задержка вывода (P50)	2,1 с	2,4 с	+14%

Ключевой компромисс: задержка увеличивается примерно на 14%, но при этом достигается значительное улучшение на 2-3% в задачах математики и программирования, требующих глубокого рассуждения. Для сценариев, не требующих ультранизкой задержки, это весьма выгодный компромисс.

Почему это важно

1. Разрушение интуиции «чем больше, тем лучше»

Долгое время отрасль верила в закон масштабирования: «больше параметров — больше возможностей». Но эта архитектура демонстрирует:

Умное архитектурное проектирование может достичь более сильных результатов с меньшим количеством параметров.

Гибридная система на 39B параметров (35B + 4B) уже приближается к производительности одиночных моделей на 70B+ в задачах рассуждения.

2. Архитектурная инновация от сообщества открытого кода

Это не просто накопление параметров, а инновация на уровне архитектуры. Для команд, которые не могут позволить себе модели со сотнями миллиардов параметров, этот гибридный подход предоставляет новое направление оптимизации.

3. Завершение продуктовой линейки Qwen 3.6

Серия Qwen 3.6 теперь имеет три чёткие продуктовые линии:

Продукт	Архитектура	Позиционирование
Qwen 3.6 Max Preview	1T MoE (закрытый API)	Флагманские возможности
Qwen 3.6-27B	Плотная (открытый код)	Развёртывание на одной карте
Qwen 3.6 Гибрид (4B+35B)	Двухмозговое сотрудничество (открытый код)	Усиление рассуждений

Источники

Официальный твит QwenLM (2026-05-02)
Блог Qwen: qwenlm.github.io
Сводка бенчмарков сообщества

Что произошло

Разбор архитектуры

Почему 4B + 35B?

Роль нового решателя

Производительность

Почему это важно

1. Разрушение интуиции «чем больше, тем лучше»

2. Архитектурная инновация от сообщества открытого кода

3. Завершение продуктовой линейки Qwen 3.6

Рекомендации к действию

Источники

Похожие материалы

NVIDIA NIM бесплатно открывает 100+ передовых моделей: MiniMax M2.7, DeepSeek V3.2 с нулевой стоимостью

ЛеКун ставит на JEPA: Триллионы пошли не туда? Мировые модели против LLM — последний спор о маршруте

DeepSeek V4 Pro сравнялся с GPT-5.2 на FoodTruck Bench: разрыв между США и Китаем сократился до 10 недель