Qwen3.6-35B-A3B 开源:350 亿参数 MoE 架构,推理仅激活 30 亿

Qwen3.6-35B-A3B 开源:350 亿参数 MoE 架构,推理仅激活 30 亿

核心结论

通义千问团队在 Hugging Face 上线 Qwen3.6-35B-A3B,这是 Qwen3.6 系列的首个开源变体。35B 总参数、推理时仅激活 3B,采用 256 专家 MoE + Gated DeltaNet 混合架构,Apache 2.0 许可,原生支持 262K 上下文窗口,可扩至 100 万 token。

维度Qwen3.6-35B-A3B
总参数35B
激活参数3B
专家数256(激活 8 路由 + 1 共享)
上下文262K 原生,可扩展至 1M
许可证Apache 2.0
架构Gated DeltaNet → MoE + Gated Attention → MoE
多模态内置 Vision Encoder(Image-Text-to-Text)

发生了什么

架构:Gated DeltaNet 与 MoE 的混合设计

Qwen3.6-35B-A3B 的核心创新在于 混合注意力布局

10 × [
  3 × (Gated DeltaNet → MoE)
  1 × (Gated Attention → MoE)
]

这种设计不是简单的 MoE 堆叠,而是将 线性注意力(Gated DeltaNet)全局注意力(Gated Attention) 交替组合,每 3 层 DeltaNet 配 1 层全局注意力。DeltaNet 负责高效的局部上下文建模,全局注意力层确保长距离信息传递不被衰减。

具体参数:

  • 40 层,隐藏维度 2048
  • Gated DeltaNet:32 个 V 头 + 16 个 QK 头,头维度 128
  • Gated Attention:16 个 Q 头 + 2 个 KV 头(GQA),头维度 256
  • MoE:256 个专家,每次激活 8 个路由专家 + 1 个共享专家,专家中间维度 512
  • 词表大小:248,320(padding 后)

推理效率:3B 激活参数意味着什么

3B 激活参数在当前开源 MoE 模型中属于极低水平。对比:

模型总参数激活参数激活占比
Qwen3.6-35B-A3B35B3B8.6%
DeepSeek V41.6T37B2.3%
Ling-2.6-Flash104B7.4B7.1%
Kimi K2.6~1T~32B3.2%

Qwen3.6-35B-A3B 的绝对激活参数(3B)远低于其他模型,这意味着:

  • 单卡可运行:INT4 量化后只需约 1.5-2GB 显存即可加载激活部分
  • 低延迟推理:相比 27B dense 模型(如 Qwen3.6-27B),推理速度快数倍
  • 多路并发:同一张 A100 可同时运行多个实例,适合高吞吐场景

多模态原生支持

不同于 Qwen3.6-27B 的纯文本模型,Qwen3.6-35B-A3B 是 Image-Text-to-Text 架构,内置 Vision Encoder。这意味着它可以直接处理图文混合输入,无需外挂视觉模型。配合 262K 原生上下文,适合长文档+插图的复杂理解任务。

Qwen3.6 系列的两个关键升级

官方博客提到的两个核心改进方向:

  1. Agentic Coding 增强:前端工作流和仓库级推理能力显著提升,意味着在代码 Agent 场景下的工具调用链更长、更稳定
  2. Thinking Preservation(思考保留):新增选项可从历史消息中保留推理上下文,减少迭代开发中的重复推理开销——这对需要多轮交互的 Agent 工作流尤为关键

为什么重要

1. 填补 Qwen3.6 系列的 MoE 空白

Qwen3.6 系列此前主要发布了 dense 模型(如 27B)。35B-A3B 是首个 MoE 变体,补全了产品线的关键一环:

  • 27B dense:适合不需要 MoE 复杂度、追求稳定性的场景
  • 35B-A3B MoE:激活参数仅 3B,性能逼近更大的 dense 模型,适合成本敏感的高并发场景
  • 更大规模:后续可能还会有更大的 MoE 变体

2. 消费级 GPU 友好

3B 激活参数 + 2048 隐藏维度 = 极低的推理门槛。在消费级 GPU 上的部署场景:

# RTX 4090 (24GB) 可轻松运行
# INT4 量化后约 2GB 显存占用激活部分
# 剩余显存可用于 KV Cache,支持长上下文

这意味着个人开发者和小团队可以用低成本部署一个多模态 MoE 模型,无需依赖云端 API。

3. 混合架构的探索价值

Gated DeltaNet + MoE 的组合在开源社区并不常见。DeltaNet 作为一种线性注意力变体,在长序列建模上有天然优势,配合 MoE 的稀疏计算,可能代表了一种新的效率-性能权衡范式。如果 benchmark 表现验证了这一设计的优势,其他开源团队可能会跟进类似架构。

竞品对比

模型总参数激活参数上下文多模态许可证部署门槛
Qwen3.6-35B-A3B35B3B262K→1MApache 2.0消费级 GPU
Qwen3.6-27B27B27B128KApache 2.0单卡 4090
DeepSeek V41.6T37B128KMIT多卡 A100
Ling-2.6-Flash104B7.4B256KMIT单卡 4090
MiMo-V2.5-Pro1T42B1MMIT多卡 A100

Qwen3.6-35B-A3B 的独特定位:最低的绝对激活参数 + 原生多模态 + Apache 2.0 商用许可

行动建议

谁应该关注

  • Agent 开发者:Thinking Preservation 功能直接优化了多轮 Agent 调用的效率
  • 低成本部署团队:3B 激活参数意味着极低的推理成本和硬件门槛
  • 多模态应用开发者:原生 Image-Text-to-Text 架构,无需额外视觉模型
  • 长上下文需求方:262K 原生、可扩展至 1M 的上下文窗口

如何上手

pip install transformers accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    device_map="auto",
    torch_dtype="auto"
)

兼容 vLLM、SGLang、KTransformers 等推理框架。

需要注意的点

  • 作为 Qwen3.6 首个开源变体,社区 tooling(Ollama 适配等)可能还在跟进
  • 3B 激活参数的代价是总参数 35B,全量加载仍需一定显存(需 MoE 推理框架支持稀疏加载)
  • benchmark 的具体数值需参考官方博客,当前页面未完全展开
  • Apache 2.0 许可允许商用,但需遵守许可条款

主要来源: