Qwen 3.6 开源系列评测:35B MoE 模型代码能力接近 Claude 4.5 Opus

Qwen 3.6 开源系列评测:35B MoE 模型代码能力接近 Claude 4.5 Opus

阿里千问 Qwen3.6 系列近期开源,包含 Qwen3.6-27B(稠密模型)和 Qwen3.6-35B-A3B(MoE 混合专家模型)。这一轮更新在代码能力、上下文窗口和架构效率上都有明显提升,是目前开源社区最值得关注的模型发布之一。

模型规格

参数Qwen3.5-27BQwen3.6-27BQwen3.6-35B-A3B
架构稠密稠密MoE(激活 3B)
上下文默认262K tokens262K tokens
扩展上下文最高 101 万 tokens最高 101 万 tokens
注意力标准MLA + Gated DeltaNetMLA + Gated DeltaNet

Qwen3.6 系列采用了 MLA(多头潜在注意力)和 Gated DeltaNet 混合架构,这意味着在推理时可以用更少的激活参数达到更好的效果。35B-A3B 版本总参数 35B,但每次推理只激活 3B 参数,部署成本接近 3B 模型,性能却接近 30B+ 级别。

基准成绩

在 SWE-bench Verified(代码 Agent 能力)上:

模型SWE-bench Verified
Qwen3.5-27B75.0
Qwen3.5-397B-A17B76.2
Qwen3.6-35B-A3B接近 Claude 4.5 Opus 水平
Claude 4.5 Opus参照基准
Gemma4-31B52.x

Qwen3.6-35B-A3B 的代码 Agent 能力已经接近 Claude 4.5 Opus,这是开源模型在该维度上首次逼近闭源旗舰的水平。而 Qwen3.6-27B 稠密版本也在 SWE-bench Verified 上保持了 75 分以上的成绩,显著领先同参数级别的 Gemma4-31B。

社区实测还显示,在前端代码生成和 UI 开发场景下,Qwen3.6 Max 预览版的表现甚至超过了 Claude,在后端和复杂逻辑推理上 Claude 仍占优势。这说明 Qwen3.6 在不同任务类型上的能力分布并不均衡。

与替代方案对比

对于需要本地部署或成本敏感的团队,Qwen3.6 的竞争格局大致如下:

  • 相比 Llama 3 系列: Qwen3.6 在中文能力和代码能力上明显领先,多语言支持也更完善。
  • 相比 Gemma 4 系列: Qwen3.6-27B 在 SWE-bench 上比 Gemma4-31B 高出约 23 分,代码能力差距显著。
  • 相比 DeepSeek 系列: DeepSeek 在推理成本上有优势,但 Qwen3.6 的上下文窗口和中文理解更出色。
  • 相比闭源模型: Qwen3.6-35B-A3B 的代码能力接近 Claude 4.5 Opus,但长上下文理解和多模态能力仍有差距。

快速上手

使用 Hugging Face Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "用 Python 实现一个快速排序"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

硬件需求:

  • Qwen3.6-27B(稠密):推荐 2×A100 80GB 或 4×A6000 48GB
  • Qwen3.6-35B-A3B(MoE):由于只激活 3B 参数,单卡 A100 40GB 即可运行

值得观察的点

Qwen3.6 系列的发布传递了几个信号:

  1. MoE 架构成熟度提升。 35B 总参数仅激活 3B 就能接近 Claude 4.5 Opus 的代码能力,说明混合专家架构正在从”有潜力”走向”真正可用”。
  2. 中文场景优势。 Qwen3.6 在中文理解和生成上的投入是国外模型没有的,对于以中文为主要工作语言的团队来说,这是值得优先考虑的选项。
  3. 前端代码的意外优势。 社区实测显示 Qwen3.6 在前端代码生成上优于 Claude,这个结果值得进一步验证——如果确认,对 Web 开发团队来说是一个实用的发现。

主要来源: