核心结论
Qwen3.6 Heretic 35B 是近期社区热度最高的开源模型微调版本。基于阿里 Qwen3.6-35B,它在保持原始模型智能水平的同时,显著降低了安全拒绝率,并且量化后的版本可以在消费级 RTX 3090/4090 上运行 260K 上下文的 Agent 任务。
发生了什么
4 月底,社区发布了 Qwen3.6 Heretic 35B,基于 Qwen3.6-35B 基座进行了针对性微调。关键特性:
| 维度 | Qwen3.6-35B 原版 | Qwen3.6 Heretic 35B |
|---|---|---|
| 智能水平 | 基准 | 保持同等 |
| 安全拒绝率 | 较高 | 显著降低 |
| 最大上下文 | 260K tokens | 260K tokens |
| 硬件需求 | 多卡/A100 | RTX 3090/4090(量化后) |
| Agent 工具调用 | 支持 | 更流畅 |
| 开源许可 | 开源 | 开源 |
在 DGX-Spark 排行榜上,Qwen3.6-35B 的量化版本分别跑出 95 tps、92 tps 和 73 tps 的推理速度,超过了 gpt-oss-120B 和 gemma4-26B。
为什么「减少拒绝」重要
对于开发者来说,原版 Qwen3.6 在处理某些边界请求时会触发过度安全拒绝——这在 Agent 工作流中尤为致命。比如:
- 代码生成:涉及系统级操作或网络请求的代码被拒绝
- 数据处理:包含敏感字段名的数据清洗任务被拒绝
- Agent 工具调用:某些 MCP 工具的参数组合触发安全拦截
Heretic 版本通过社区微调,在不降低模型核心能力的前提下,将这些「误杀」场景大幅减少。这意味着:
- Agent 工作流更稳定:减少因拒绝导致的任务中断
- 调试效率提升:不需要反复改写 prompt 来绕过安全过滤
- 本地部署友好:消费级 GPU 即可部署,无需云端 API
部署方案
量化版本选择
| 量化格式 | 显存需求 | 推理速度 | 精度损失 |
|---|---|---|---|
| Q4_K_M | ~20GB | 95 tps | 极低 |
| Q5_K_M | ~22GB | 92 tps | 可忽略 |
| Q6_K | ~26GB | 73 tps | 几乎无 |
RTX 4090(24GB)推荐 Q4_K_M 或 Q5_K_M,RTX 3090(24GB)同样适用。
推荐工具栈
- LM Studio:自动发现模型,零配置加载
- Ollama:一行命令
ollama run qwen3.6-heretic-35b - vLLM:生产环境部署,支持高并发
格局判断
Qwen3.6 Heretic 的出现反映了两个趋势:
- 社区微调生态成熟:从「能用」到「好用」的最后一公里由社区补齐
- 消费级 GPU 推理成为主流:35B 级别的模型已经可以在单张消费级 GPU 上流畅运行
对比同类:
- Kimi K2.6(1T MoE,32B active)更侧重 Agent 集群能力
- DeepSeek-V4-Pro 在 API 性价比上占优
- Qwen3.6 Heretic 则在本地部署 + 低拒绝率的组合上形成差异化
行动建议
- 已有 RTX 3090/4090 的开发者:直接部署,替换现有 Qwen3.6 基座
- Agent 开发者:Heretic 版本在工具调用场景下表现更稳定
- 企业用户:注意 Heretic 是社区微调版本,安全策略已调整,需评估合规风险
- 对比测试:建议与原版 Qwen3.6-35B 在你的具体业务场景下做 A/B 测试