Qwen3.6-35B-A3B выходит в открытый доступ: MoE-архитектура на 35 млрд параметров, при инференсе активируется лишь 3 млрд

Qwen3.6-35B-A3B выходит в открытый доступ: MoE-архитектура на 35 млрд параметров, при инференсе активируется лишь 3 млрд

Ключевые выводы

Команда Qwen опубликовала на Hugging Face модель Qwen3.6-35B-A3B — первый вариант с открытым исходным кодом из серии Qwen3.6. 35 млрд общих параметров, из которых при инференсе активируется лишь 3 млрд. Гибридная архитектура: MoE с 256 экспертами в сочетании с Gated DeltaNet. Лицензия Apache 2.0, нативное окно контекста 262K, расширяемое до 1 миллиона токенов.

ПараметрQwen3.6-35B-A3B
Общие параметры35 млрд
Активируемые параметры3 млрд
Количество экспертов256 (активируются 8 маршрутизируемых + 1 общий)
Контекст262K нативно, расширяется до 1M
ЛицензияApache 2.0
АрхитектураGated DeltaNet → MoE + Gated Attention → MoE
МультимодальностьВстроенный Vision Encoder (Image-Text-to-Text)

Что произошло

Архитектура: гибридная конструкция Gated DeltaNet и MoE

Ключевая инновация Qwen3.6-35B-A3B заключается в гибридной компоновке внимания:

10 × [
  3 × (Gated DeltaNet → MoE)
  1 × (Gated Attention → MoE)
]

Это не простое наслоение MoE. Здесь линейное внимание (Gated DeltaNet) и глобальное внимание (Gated Attention) чередуются: каждые 3 слоя DeltaNet сопровождаются 1 слоем глобального внимания. DeltaNet отвечает за эффективное моделирование локального контекста, а слои глобального внимания обеспечивают передачу информации на большие расстояния без затухания.

Конкретные параметры:

  • 40 слоёв, скрытая размерность 2048
  • Gated DeltaNet: 32 головы V + 16 голов QK, размерность головы 128
  • Gated Attention: 16 голов Q + 2 головы KV (GQA), размерность головы 256
  • MoE: 256 экспертов, при каждом вызове активируются 8 маршрутизируемых экспертов + 1 общий, промежуточная размерность эксперта 512
  • Размер словаря: 248 320 (после паддинга)

Эффективность инференса: что означают 3 млрд активируемых параметров

Активация 3 млрд параметров — один из самых низких показателей среди современных open-source MoE-моделей. Сравнение:

МодельОбщие параметрыАктивируемые параметрыДоля активации
Qwen3.6-35B-A3B35 млрд3 млрд8,6%
DeepSeek V41,6 трлн37 млрд2,3%
Ling-2.6-Flash104 млрд7,4 млрд7,1%
Kimi K2.6~1 трлн~32 млрд3,2%

Абсолютное число активируемых параметров Qwen3.6-35B-A3B (3 млрд) значительно ниже, чем у других моделей, что означает:

  • Запуск на одной видеокарте: после квантования INT4 для активированной части требуется лишь ~1,5–2 ГБ видеопамяти
  • Низкая задержка инференса: в несколько раз быстрее, чем 27B dense-модели вроде Qwen3.6-27B
  • Многопоточность: на одной A100 можно одновременно запускать несколько экземпляров — идеально для сценариев с высокой пропускной способностью

Нативная мультимодальная поддержка

В отличие от текстовой Qwen3.6-27B, модель Qwen3.6-35B-A3B построена на архитектуре Image-Text-to-Text со встроенным Vision Encoder. Это означает, что она может напрямую обрабатывать смешанные текстово-графические входные данные без подключения внешней визуальной модели. В сочетании с нативным контекстом 262K модель подходит для сложных задач понимания длинных документов с иллюстрациями.

Два ключевых улучшения серии Qwen3.6

Официальный блог выделяет два основных направления улучшений:

  1. Улучшение Agentic Coding: значительно повышена способность к работе с фронтенд-воркфлоу и рассуждению на уровне репозитория — это означает более длинные и стабильные цепочки вызовов инструментов в сценариях кодовых агентов
  2. Thinking Preservation (сохранение рассуждений): новая опция позволяет сохранять контекст рассуждений из исторических сообщений, снижая избыточные вычислительные затраты при итеративной разработке — особенно критично для многоходовых интерактивных воркфлоу агентов

Почему это важно

1. Заполнение MoE-пробела в линейке Qwen3.6

Серия Qwen3.6 ранее выпускала преимущественно dense-модели (например, 27B). 35B-A3B — первый вариант MoE, завершающий ключевой элемент продуктовой линейки:

  • 27B dense: для сценариев, где не нужна сложность MoE и важна стабильность
  • 35B-A3B MoE: лишь 3 млрд активируемых параметров, производительность приближается к гораздо более крупным dense-моделям, идеально для сценариев с высокой нагрузкой при ограниченном бюджете
  • Более крупные версии: возможно появление более масштабных MoE-вариантов

2. Дружелюбность к потребительским GPU

3 млрд активируемых параметров + скрытая размерность 2048 = чрезвычайно низкий порог для инференса. Сценарий развёртывания на потребительских GPU:

# RTX 4090 (24 ГБ) запускает без проблем
# ~2 ГБ видеопамяти для активированной части после квантования INT4
# Оставшаяся память доступна для KV Cache, поддержка длинного контекста

Это означает, что индивидуальные разработчики и небольшие команды могут развёртывать мультимодальную MoE-модель с низкими затратами, не полагаясь на облачные API.

3. Исследовательская ценность гибридной архитектуры

Комбинация Gated DeltaNet + MoE пока не распространена в open-source-сообществе. DeltaNet как вариант линейного внимания имеет естественные преимущества в моделировании длинных последовательностей. В сочетании со稀疏 вычислениями MoE это может представлять новую парадигму баланса эффективности и производительности. Если бенчмарки подтвердят преимущества этого дизайна, другие open-source-команды, вероятно, последуют примеру.

Сравнение с конкурентами

МодельОбщие параметрыАктивируемые параметрыКонтекстМультимодальностьЛицензияПорог развёртывания
Qwen3.6-35B-A3B35 млрд3 млрд262K→1MApache 2.0Потребительский GPU
Qwen3.6-27B27 млрд27 млрд128KApache 2.0Одна 4090
DeepSeek V41,6 трлн37 млрд128KMITНесколько A100
Ling-2.6-Flash104 млрд7,4 млрд256KMITОдна 4090
MiMo-V2.5-Pro1 трлн42 млрд1MMITНесколько A100

Уникальное позиционирование Qwen3.6-35B-A3B: наименьшие абсолютные активируемые параметры + нативная мультимодальность + коммерческая лицензия Apache 2.0.

Рекомендации

Кому стоит обратить внимание

  • Разработчикам агентов: функция Thinking Preservation напрямую оптимизирует эффективность многоходовых вызовов агентов
  • Командам с ограниченным бюджетом: 3 млрд активируемых параметров означают крайне низкие затраты на инференс и аппаратные требования
  • Разработчикам мультимодальных приложений: нативная архитектура Image-Text-to-Text, дополнительная визуальная модель не нужна
  • Пользователям с потребностью в длинном контексте: 262K нативно, расширяется до 1M токенов

Как начать

pip install transformers accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    device_map="auto",
    torch_dtype="auto"
)

Совместима с фреймворками vLLM, SGLang, KTransformers и другими.

На что обратить внимание

  • Как первый open-source-вариант Qwen3.6, инструментарий сообщества (поддержка Ollama и т.д.) может быть ещё в разработке
  • Плата за 3 млрд активируемых параметров — 35 млрд общих параметров: полная загрузка всё ещё требует определённого объёма видеопамяти (нужен MoE-фреймворк с поддержкой稀疏 загрузки)
  • Конкретные значения бенчмарков следует смотреть в официальном блоге — текущая страница раскрыта не полностью
  • Лицензия Apache 2.0 разрешает коммерческое использование, но требует соблюдения условий лицензии

Основные источники: