C
ChaoBro

Qwen3.6 Heretic 35B:コミュニティファインチューン版が拒否を大幅削減、RTX 4090で動作

Qwen3.6 Heretic 35B:コミュニティファインチューン版が拒否を大幅削減、RTX 4090で動作

結論

Qwen3.6 Heretic 35Bは現在最も注目されているコミュニティファインチューン版です。AlibabaのQwen3.6-35Bをベースに、安全性拒否率を大幅に低減しながら元のモデルの知能レベルを維持。量子化版はコンシューマーグレードのRTX 3090/4090で260KコンテキストのAgentタスクを実行可能です。

何があったか

4月下旬、コミュニティがQwen3.6-35BをベースにしたQwen3.6 Heretic 35Bをリリース。主要仕様:

項目Qwen3.6-35B オリジナルQwen3.6 Heretic 35B
知能レベルベースライン維持
安全性拒否率高い大幅に低減
最大コンテキスト260K tokens260K tokens
ハードウェア要件マルチGPU/A100RTX 3090/4090(量子化)
Agentツール使用対応よりスムーズ

DGX-Sparkリーダーボードでは、量子化版が95 tps92 tps73 tpsの推論速度を記録し、gpt-oss-120Bとgemma4-26Bを上回りました。

「拒否率低減」が重要な理由

開発者にとって、オリジナルQwen3.6はエッジケースで過度な安全性拒否をトリガーします:

  • コード生成:システムレベルやネットワークリクエストのコードが拒否される
  • データ処理:機密フィールド名を含むデータクリーニングタスクがブロックされる
  • Agentツール呼び出し:特定のMCPツールパラメータの組み合わせが安全フィルターをトリガー

Hereticはコア機能を低下させることなく、これらの「誤検知」をコミュニティファインチューニングで大幅に削減しました。

デプロイガイド

量子化オプション

フォーマットVRAM速度精度損失
Q4_K_M~20GB95 tps最小限
Q5_K_M~22GB92 tps無視可能
Q6_K~26GB73 tpsほぼなし

RTX 4090(24GB):Q4_K_MまたはQ5_K_M推奨。

推奨ツール

  • LM Studio:自動モデル検出、ゼロ設定読み込み
  • Ollamaollama run qwen3.6-heretic-35bの1コマンド
  • vLLM:本番デプロイ、高コンカレンシー対応

アクションアイテム

  • RTX 3090/4090所有者:すぐにデプロイ、既存のQwen3.6ベースを置換
  • Agent開発者:ツール呼び出しシナリオでHeretic版がより安定
  • 企業ユーザー:Hereticはコミュニティファインチューン版のため、コンプライアンスリスクを評価
  • A/Bテスト:具体的なユースケースでオリジナルと比較