结论先行
Qwen3.6 家族在 2026 年 4 月底完成全面铺货后,交出了一份极具争议的成绩单:
- Qwen3.6-27B 以 46 分登顶 Artificial Analysis Intelligence Index(150B 参数以下开源模型)
- Qwen3.6-35B 量化版本在 DGX-Spark 榜单上跑出 95/92/73 tps,超越 GPT-OSS-120B 和 Gemma 4 26B
- 但完整跑完 Intelligence Index 需要消耗约 3.7 倍输出 token,综合成本是 Gemma 4 31B 的 21 倍
这不是一个”谁更强”的故事,而是一个”性能税”的故事——Qwen3.6 用更多的 token 换更高的分数,但代价是推理成本呈指数级膨胀。
Intelligence Index 数据全景
| 模型 | Intelligence Index | 参数量 | 输出 Token 倍数 | 相对成本 |
|---|---|---|---|---|
| Qwen3.6-27B | 46 | 27B | 3.7x | 21x |
| Gemma 4 31B | 39 | 31B | 1.0x | 1.0x |
| Qwen3.6-35B (Q8) | — | 35B | — | — |
| Qwen3.6-35B (Q6) | — | 35B | — | — |
| Qwen3.6-35B (Q4) | — | 35B | — | — |
| GPT-OSS-120B | — | 120B | — | — |
数据来源: Artificial Analysis Intelligence Index, DGX-Spark Leaderboard (Apr 2026)
Qwen3.6-27B 的 46 分确实亮眼,在 150B 参数以下的开源模型中位居第一。但深入分析后,核心发现是:
- Token 消耗异常高:完成同等测试集,Qwen3.6-27B 生成的输出 token 量是 Gemma 4 31B 的 3.7 倍
- 成本差距巨大:综合 API 调用和推理时长,Qwen3.6 的总成本约为 Gemma 4 的 21 倍
- 量化版本补位:35B 的 Q8/Q6/Q4 量化模型陆续在 DGX-Spark 上架,分别跑出 95/92/73 tps
量化模型:消费级硬件的入场券
Qwen3.6-35B 的三个量化版本(Q8/Q6/Q4)在 DGX-Spark 上的表现值得关注:
- Q8(8-bit): 95 tps — 精度损失最小,适合对输出质量敏感的场景
- Q6(6-bit): 92 tps — 性价比最优,精度与速度的甜蜜点
- Q4(4-bit): 73 tps — 最低显存占用,适合边缘部署
值得注意的是,即使是 Q4 量化版本,35B 模型仍然无法在 RTX 3090/4090(24GB 显存)上运行——会直接 OOM。这意味着消费级用户需要至少 40GB+ 显存的硬件(如 RTX 5090 或专业卡)才能跑起来。
相比之下,27B 版本经过量化后可以在 24GB 显存的显卡上勉强运行,但会显著牺牲上下文长度。
格局判断
Qwen3.6 家族的发布揭示了一个行业趋势:开源模型的”刷榜策略”正在被成本意识所制衡。
- Qwen 阵营:追求 Intelligence Index 分数最大化,通过增加输出 token 来提升复杂推理能力
- Gemma 阵营:走轻量高效路线,A4B(激活 4B 参数)架构在消费级硬件上实现多实例推理
- 中间路线:量化模型正在成为性能与成本之间的实际平衡点
对于企业用户而言,选择的关键在于:你需要的是 Intelligence Index 上的绝对高分,还是单位 token 的最优产出?
行动建议
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 学术研究/刷榜 | Qwen3.6-27B | Intelligence Index 最高分 |
| 生产环境推理 | Gemma 4 31B | 成本低 21 倍,分数差距仅 7 分 |
| 消费级硬件部署 | Qwen3.6-35B Q4 | 最低显存占用,73 tps |
| 性价比首选 | Qwen3.6-35B Q6 | 92 tps,精度损失可接受 |
| 多实例并发 | Gemma 4 26B A4B | 单台笔记本可同时跑多实例 |
关键判断:如果你的应用场景不需要 Intelligence Index 前 5% 的绝对性能,Gemma 4 的性价比优势极为显著。但如果你在做代码生成或复杂推理,Qwen3.6 的 token 消耗换来的是实实在在的分数提升——这笔账取决于你的预算约束。