Qwen 3.6 开源系列评测：35B MoE 模型代码能力接近 Claude 4.5 Opus

阿里千问 Qwen3.6 系列近期开源，包含 Qwen3.6-27B（稠密模型）和 Qwen3.6-35B-A3B（MoE 混合专家模型）。这一轮更新在代码能力、上下文窗口和架构效率上都有明显提升，是目前开源社区最值得关注的模型发布之一。

模型规格

参数	Qwen3.5-27B	Qwen3.6-27B	Qwen3.6-35B-A3B
架构	稠密	稠密	MoE（激活 3B）
上下文	默认	262K tokens	262K tokens
扩展上下文	—	最高 101 万 tokens	最高 101 万 tokens
注意力	标准	MLA + Gated DeltaNet	MLA + Gated DeltaNet

Qwen3.6 系列采用了 MLA（多头潜在注意力）和 Gated DeltaNet 混合架构，这意味着在推理时可以用更少的激活参数达到更好的效果。35B-A3B 版本总参数 35B，但每次推理只激活 3B 参数，部署成本接近 3B 模型，性能却接近 30B+ 级别。

基准成绩

在 SWE-bench Verified（代码 Agent 能力）上：

模型	SWE-bench Verified
Qwen3.5-27B	75.0
Qwen3.5-397B-A17B	76.2
Qwen3.6-35B-A3B	接近 Claude 4.5 Opus 水平
Claude 4.5 Opus	参照基准
Gemma4-31B	52.x

Qwen3.6-35B-A3B 的代码 Agent 能力已经接近 Claude 4.5 Opus，这是开源模型在该维度上首次逼近闭源旗舰的水平。而 Qwen3.6-27B 稠密版本也在 SWE-bench Verified 上保持了 75 分以上的成绩，显著领先同参数级别的 Gemma4-31B。

社区实测还显示，在前端代码生成和 UI 开发场景下，Qwen3.6 Max 预览版的表现甚至超过了 Claude，在后端和复杂逻辑推理上 Claude 仍占优势。这说明 Qwen3.6 在不同任务类型上的能力分布并不均衡。

与替代方案对比

对于需要本地部署或成本敏感的团队，Qwen3.6 的竞争格局大致如下：

相比 Llama 3 系列： Qwen3.6 在中文能力和代码能力上明显领先，多语言支持也更完善。
相比 Gemma 4 系列： Qwen3.6-27B 在 SWE-bench 上比 Gemma4-31B 高出约 23 分，代码能力差距显著。
相比 DeepSeek 系列： DeepSeek 在推理成本上有优势，但 Qwen3.6 的上下文窗口和中文理解更出色。
相比闭源模型： Qwen3.6-35B-A3B 的代码能力接近 Claude 4.5 Opus，但长上下文理解和多模态能力仍有差距。

快速上手

使用 Hugging Face Transformers：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "用 Python 实现一个快速排序"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

硬件需求：

Qwen3.6-27B（稠密）：推荐 2×A100 80GB 或 4×A6000 48GB
Qwen3.6-35B-A3B（MoE）：由于只激活 3B 参数，单卡 A100 40GB 即可运行

值得观察的点

Qwen3.6 系列的发布传递了几个信号：

MoE 架构成熟度提升。 35B 总参数仅激活 3B 就能接近 Claude 4.5 Opus 的代码能力，说明混合专家架构正在从”有潜力”走向”真正可用”。
中文场景优势。 Qwen3.6 在中文理解和生成上的投入是国外模型没有的，对于以中文为主要工作语言的团队来说，这是值得优先考虑的选项。
前端代码的意外优势。 社区实测显示 Qwen3.6 在前端代码生成上优于 Claude，这个结果值得进一步验证——如果确认，对 Web 开发团队来说是一个实用的发现。

主要来源：

模型规格

基准成绩

与替代方案对比

快速上手

值得观察的点

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%