Qwen3.6-35B-A3B 开源：350 亿参数 MoE 架构，推理仅激活 30 亿

核心结论

通义千问团队在 Hugging Face 上线 Qwen3.6-35B-A3B，这是 Qwen3.6 系列的首个开源变体。35B 总参数、推理时仅激活 3B，采用 256 专家 MoE + Gated DeltaNet 混合架构，Apache 2.0 许可，原生支持 262K 上下文窗口，可扩至 100 万 token。

维度	Qwen3.6-35B-A3B
总参数	35B
激活参数	3B
专家数	256（激活 8 路由 + 1 共享）
上下文	262K 原生，可扩展至 1M
许可证	Apache 2.0
架构	Gated DeltaNet → MoE + Gated Attention → MoE
多模态	内置 Vision Encoder（Image-Text-to-Text）

发生了什么

架构：Gated DeltaNet 与 MoE 的混合设计

Qwen3.6-35B-A3B 的核心创新在于 混合注意力布局：

10 × [
  3 × (Gated DeltaNet → MoE)
  1 × (Gated Attention → MoE)
]

这种设计不是简单的 MoE 堆叠，而是将 线性注意力（Gated DeltaNet） 和 全局注意力（Gated Attention） 交替组合，每 3 层 DeltaNet 配 1 层全局注意力。DeltaNet 负责高效的局部上下文建模，全局注意力层确保长距离信息传递不被衰减。

具体参数：

40 层，隐藏维度 2048
Gated DeltaNet：32 个 V 头 + 16 个 QK 头，头维度 128
Gated Attention：16 个 Q 头 + 2 个 KV 头（GQA），头维度 256
MoE：256 个专家，每次激活 8 个路由专家 + 1 个共享专家，专家中间维度 512
词表大小：248,320（padding 后）

推理效率：3B 激活参数意味着什么

3B 激活参数在当前开源 MoE 模型中属于极低水平。对比：

模型	总参数	激活参数	激活占比
Qwen3.6-35B-A3B	35B	3B	8.6%
DeepSeek V4	1.6T	37B	2.3%
Ling-2.6-Flash	104B	7.4B	7.1%
Kimi K2.6	~1T	~32B	3.2%

Qwen3.6-35B-A3B 的绝对激活参数（3B）远低于其他模型，这意味着：

单卡可运行：INT4 量化后只需约 1.5-2GB 显存即可加载激活部分
低延迟推理：相比 27B dense 模型（如 Qwen3.6-27B），推理速度快数倍
多路并发：同一张 A100 可同时运行多个实例，适合高吞吐场景

多模态原生支持

不同于 Qwen3.6-27B 的纯文本模型，Qwen3.6-35B-A3B 是 Image-Text-to-Text 架构，内置 Vision Encoder。这意味着它可以直接处理图文混合输入，无需外挂视觉模型。配合 262K 原生上下文，适合长文档+插图的复杂理解任务。

Qwen3.6 系列的两个关键升级

官方博客提到的两个核心改进方向：

Agentic Coding 增强：前端工作流和仓库级推理能力显著提升，意味着在代码 Agent 场景下的工具调用链更长、更稳定
Thinking Preservation（思考保留）：新增选项可从历史消息中保留推理上下文，减少迭代开发中的重复推理开销——这对需要多轮交互的 Agent 工作流尤为关键

为什么重要

1. 填补 Qwen3.6 系列的 MoE 空白

Qwen3.6 系列此前主要发布了 dense 模型（如 27B）。35B-A3B 是首个 MoE 变体，补全了产品线的关键一环：

27B dense：适合不需要 MoE 复杂度、追求稳定性的场景
35B-A3B MoE：激活参数仅 3B，性能逼近更大的 dense 模型，适合成本敏感的高并发场景
更大规模：后续可能还会有更大的 MoE 变体

2. 消费级 GPU 友好

3B 激活参数 + 2048 隐藏维度 = 极低的推理门槛。在消费级 GPU 上的部署场景：

# RTX 4090 (24GB) 可轻松运行
# INT4 量化后约 2GB 显存占用激活部分
# 剩余显存可用于 KV Cache，支持长上下文

这意味着个人开发者和小团队可以用低成本部署一个多模态 MoE 模型，无需依赖云端 API。

3. 混合架构的探索价值

Gated DeltaNet + MoE 的组合在开源社区并不常见。DeltaNet 作为一种线性注意力变体，在长序列建模上有天然优势，配合 MoE 的稀疏计算，可能代表了一种新的效率-性能权衡范式。如果 benchmark 表现验证了这一设计的优势，其他开源团队可能会跟进类似架构。

竞品对比

模型	总参数	激活参数	上下文	多模态	许可证	部署门槛
Qwen3.6-35B-A3B	35B	3B	262K→1M	✅	Apache 2.0	消费级 GPU
Qwen3.6-27B	27B	27B	128K	✅	Apache 2.0	单卡 4090
DeepSeek V4	1.6T	37B	128K	❌	MIT	多卡 A100
Ling-2.6-Flash	104B	7.4B	256K	❌	MIT	单卡 4090
MiMo-V2.5-Pro	1T	42B	1M	❌	MIT	多卡 A100

Qwen3.6-35B-A3B 的独特定位：最低的绝对激活参数 + 原生多模态 + Apache 2.0 商用许可。

行动建议

谁应该关注

Agent 开发者：Thinking Preservation 功能直接优化了多轮 Agent 调用的效率
低成本部署团队：3B 激活参数意味着极低的推理成本和硬件门槛
多模态应用开发者：原生 Image-Text-to-Text 架构，无需额外视觉模型
长上下文需求方：262K 原生、可扩展至 1M 的上下文窗口

如何上手

pip install transformers accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3.6-35B-A3B",
    device_map="auto",
    torch_dtype="auto"
)

兼容 vLLM、SGLang、KTransformers 等推理框架。

需要注意的点

作为 Qwen3.6 首个开源变体，社区 tooling（Ollama 适配等）可能还在跟进
3B 激活参数的代价是总参数 35B，全量加载仍需一定显存（需 MoE 推理框架支持稀疏加载）
benchmark 的具体数值需参考官方博客，当前页面未完全展开
Apache 2.0 许可允许商用，但需遵守许可条款

主要来源：