大模型动态

Qwen3.6 Heretic 35B：社区微调版大幅减少拒绝，RTX 4090 即可运行

2026年5月2日 by ChaoBro

#Qwen #通义千问 #开源模型 #Heretic #本地部署

Qwen3.6 Heretic 35B：社区微调版大幅减少拒绝，RTX 4090 即可运行

核心结论

Qwen3.6 Heretic 35B 是近期社区热度最高的开源模型微调版本。基于阿里 Qwen3.6-35B，它在保持原始模型智能水平的同时，显著降低了安全拒绝率，并且量化后的版本可以在消费级 RTX 3090/4090 上运行 260K 上下文的 Agent 任务。

发生了什么

4 月底，社区发布了 Qwen3.6 Heretic 35B，基于 Qwen3.6-35B 基座进行了针对性微调。关键特性：

维度	Qwen3.6-35B 原版	Qwen3.6 Heretic 35B
智能水平	基准	保持同等
安全拒绝率	较高	显著降低
最大上下文	260K tokens	260K tokens
硬件需求	多卡/A100	RTX 3090/4090（量化后）
Agent 工具调用	支持	更流畅
开源许可	开源	开源

在 DGX-Spark 排行榜上，Qwen3.6-35B 的量化版本分别跑出 95 tps、92 tps 和 73 tps 的推理速度，超过了 gpt-oss-120B 和 gemma4-26B。

为什么「减少拒绝」重要

对于开发者来说，原版 Qwen3.6 在处理某些边界请求时会触发过度安全拒绝——这在 Agent 工作流中尤为致命。比如：

代码生成：涉及系统级操作或网络请求的代码被拒绝
数据处理：包含敏感字段名的数据清洗任务被拒绝
Agent 工具调用：某些 MCP 工具的参数组合触发安全拦截

Heretic 版本通过社区微调，在不降低模型核心能力的前提下，将这些「误杀」场景大幅减少。这意味着：

Agent 工作流更稳定：减少因拒绝导致的任务中断
调试效率提升：不需要反复改写 prompt 来绕过安全过滤
本地部署友好：消费级 GPU 即可部署，无需云端 API

部署方案

量化版本选择

量化格式	显存需求	推理速度	精度损失
Q4_K_M	~20GB	95 tps	极低
Q5_K_M	~22GB	92 tps	可忽略
Q6_K	~26GB	73 tps	几乎无

RTX 4090（24GB）推荐 Q4_K_M 或 Q5_K_M，RTX 3090（24GB）同样适用。

推荐工具栈

LM Studio：自动发现模型，零配置加载
Ollama：一行命令 ollama run qwen3.6-heretic-35b
vLLM：生产环境部署，支持高并发

格局判断

Qwen3.6 Heretic 的出现反映了两个趋势：

社区微调生态成熟：从「能用」到「好用」的最后一公里由社区补齐
消费级 GPU 推理成为主流：35B 级别的模型已经可以在单张消费级 GPU 上流畅运行

对比同类：

Kimi K2.6（1T MoE，32B active）更侧重 Agent 集群能力
DeepSeek-V4-Pro 在 API 性价比上占优
Qwen3.6 Heretic 则在本地部署 + 低拒绝率的组合上形成差异化

行动建议

已有 RTX 3090/4090 的开发者：直接部署，替换现有 Qwen3.6 基座
Agent 开发者：Heretic 版本在工具调用场景下表现更稳定
企业用户：注意 Heretic 是社区微调版本，安全策略已调整，需评估合规风险
对比测试：建议与原版 Qwen3.6-35B 在你的具体业务场景下做 A/B 测试