C
ChaoBro

Qwen3.6 Heretic 35B: файн-тюн от сообщества сокращает отказы, работает на RTX 4090

Qwen3.6 Heretic 35B: файн-тюн от сообщества сокращает отказы, работает на RTX 4090

Вывод

Qwen3.6 Heretic 35B — самая популярная файн-тюн версия от сообщества на данный момент. Основана на Qwen3.6-35B от Alibaba, значительно снижает частоту отказов по безопасности при сохранении уровня интеллекта оригинальной модели. Квантованные версии работают на потребительских GPU RTX 3090/4090 с 260K контекстом для Agent задач.

Что произошло

В конце апреля сообщество выпустило Qwen3.6 Heretic 35B — целевой файн-тюн базовой модели Qwen3.6-35B. Ключевые характеристики:

ПараметрQwen3.6-35B оригиналQwen3.6 Heretic 35B
ИнтеллектБазовыйСохранён
Частота отказовВысокаяЗначительно снижена
Макс контекст260K токенов260K токенов
ОборудованиеМульти-GPU/A100RTX 3090/4090 (квантование)
Agent инструментыПоддерживаетсяБолее плавно

На лидерборде DGX-Spark квантованные версии показали 95 tps, 92 tps и 73 tps скорости вывода, превзойдя gpt-oss-120B и gemma4-26B.

Почему снижение отказов важно

Для разработчиков оригинальный Qwen3.6 вызывает чрезмерные отказы по безопасности на пограничных случаях:

  • Генерация кода: код системного уровня или сетевых запросов отклоняется
  • Обработка данных: задачи очистки данных с чувствительными именами полей блокируются
  • Вызов инструментов Agent: определённые комбинации параметров MCP инструментов триггерят фильтры безопасности

Heretic существенно снижает эти ложные срабатывания через файн-тюн от сообщества, не снижая основные возможности.

Руководство по развертыванию

Варианты квантования

ФорматVRAMСкоростьПотери точности
Q4_K_M~20GB95 tpsМинимальные
Q5_K_M~22GB92 tpsПренебрежимо малы
Q6_K~26GB73 tpsПочти нет

RTX 4090 (24GB): Q4_K_M или Q5_K_M. RTX 3090 (24GB): аналогично.

Рекомендуемый стек

  • LM Studio: автообнаружение моделей, нулевая настройка
  • Ollama: одна команда ollama run qwen3.6-heretic-35b
  • vLLM: production-развёртывание, высокая конкурентность

Действия

  • Владельцы RTX 3090/4090: развёртывайте сейчас, замените существующую базу Qwen3.6
  • Agent разработчики: Heretic более стабилен в сценариях вызова инструментов
  • Корпоративные пользователи: Heretic — файн-тюн от сообщества с изменённой политикой безопасности — оцените риски соответствия
  • A/B тестирование: сравните с оригиналом Qwen3.6-35B в ваших конкретных use case