数据说话
2026 年 4 月 30 日,Artificial Analysis 更新了其 Intelligence Index 排名。Qwen 3.6 27B 以 46 分的成绩,成为 150B 参数以下开源模型的绝对领导者。同一天,Vals Index 将其排入前 8 名,在所有开源模型中仅次于少数超大参数模型。
| 模型 | Intelligence Index | 参数量 | 开源 | 每 1M 输出成本 |
|---|---|---|---|---|
| Qwen 3.6 27B | 46 | 27B 稠密 | ✅ Apache 2.0 | ~$0.20(本地) |
| Gemma 4 31B | 39 | 31B 稠密 | ✅ | ~$0.01(本地) |
| Llama 4 Scout | 42 | ~17B MoE | ✅ | ~$0.15(本地) |
| Claude Opus 4.7 | ~48 | 闭源 | ❌ | $25.00 |
| GPT-5.5 | ~47 | 闭源 | ❌ | $10.00 |
关键发现:Qwen 3.6 27B 的 Intelligence Index 分数已经非常接近 GPT-5.5 和 Claude Opus 4.7,但成本差距是数量级的。
为什么是 27B?
270 亿参数意味着什么?一台搭载 24GB RAM 的 MacBook Pro M4(售价约 $2,500)就能以 4-bit 量化运行。这不是需要 GPU 集群的实验室模型,而是每个开发者桌面上都能跑的”小钢炮”。
社区实测表明,Qwen 3.6 27B 在 agentic 任务上的表现已经进入 Opus 4.5 级别。一位开发者在 M4 MacBook Pro 上跑了一整天后得出结论:“18 个月前这还属于科幻范畴。“
代价是什么?
Artificial Analysis 同时揭示了一个关键数据点:Qwen 3.6 27B 完成完整 Intelligence Index 测试需要消耗约 3.7 倍的输出 token,成本约为 Gemma 4 31B 的 21 倍。
这不是缺陷,而是设计取舍。更大的稠密模型(27B vs 31B MoE)每次推理激活全部参数,保证了输出的一致性和可预测性——这正是 agentic 工作流最需要的品质。但代价是更高的 token 消耗。
格局判断
开源模型的竞争逻辑正在从”参数竞赛”转向”效率竞赛”。Qwen 3.6 27B 的策略很清晰:
- 不是最大,而是最实用:27B 是消费级硬件可承载的上限
- 不是最便宜,而是最可靠:稠密架构保证 agentic 任务的稳定性
- 不是全能,而是专精:在编码和 agentic 场景对标闭源旗舰
行动建议
- 本地开发者:如果你的工作以编码辅助和 agentic 任务为主,Qwen 3.6 27B 是目前消费级硬件上性价比最高的选择
- 企业部署:Apache 2.0 协议 + 无需联网推理 = 数据合规场景的首选
- 观望者:等 Gemma 4 31B 的 agentic 能力进一步优化——它在 Intelligence Index 上已经追到 39 分,成本仅为 Qwen 的 1/21