C
ChaoBro

Выпущена дистиллированная версия Qwen3.6 35B A3B: сообщество обучило 72-гигабайтную открытую модель на данных рассуждений Claude Opus

Выпущена дистиллированная версия Qwen3.6 35B A3B: сообщество обучило 72-гигабайтную открытую модель на данных рассуждений Claude Opus

Главный вывод

Разработчик сообщества HuggingFace Jackrong выпустил дистиллированную версию Qwen3.6 35B A3B, дистиллированную с использованием выводов рассуждений Claude Opus. Размер файла модели составляет 71.9 ГБ, квантованная версия GGUF выйдет в ближайшее время.

Что это означает: сообщество использует данные рассуждений закрытых флагманских моделей для «питания» открытых моделей, позволяя открытым моделям приблизиться к закрытым флагманам по способности рассуждать. Паттерн «дистилляция, дистилляция, дистилляция» становится основным путём для open-source сообщества в погоне за закрытыми моделями.

Разбор технической архитектуры

Базовая архитектура

ПараметрИнформация
Базовая модельQwen3.6 35B A3B (архитектура MoE)
Источник дистилляцииВыводы рассуждений Claude Opus
Размер модели71.9 ГБ (FP16)
ИздательJackrong (известный автор дистиллированных моделей в HF-сообществе)
ПлатформаHuggingFace
Квантованная версияGGUF скоро выйдет

Почему Qwen3.6 35B A3B?

Qwen3.6 35B A3B — это модель архитектуры MoE (Mixture of Experts) со следующими характеристиками:

  • Общее количество параметров: 35B
  • Активные параметры: ~3B (A3B = Active 3 Billion)
  • Высокая эффективность вывода: Активирует только 3B параметров во время выполнения, скорость сопоставима с маленькими моделями
  • Большая ёмкость знаний: 35B общих параметров означает хранение значительного объёма знаний

Дистилляция данных рассуждений Claude Opus в эту архитектуру — это как поставить «флагманский двигатель» в «быстрое шасси».

Методология дистилляции

Данные рассуждений Claude Opus (Учитель)

    Генерация высококачественных цепочек рассуждений

Qwen3.6 35B A3B (Ученик)

    Изучение паттернов рассуждений + Перенос знаний

    Дистиллированная открытая модель

Ключевые преимущества этого подхода дистилляции:

  1. Без утечки весов Claude: Дистиллируются только выводы, не внутренние параметры модели
  2. Способность рассуждений переносима: Цепочечные рассуждения, планирование и рефлексия Claude Opus могут быть переданы через дистилляцию
  3. Экономическая эффективность: Одноразовые данные рассуждений в обмен на постоянно используемую открытую модель

Сравнительный анализ

ПараметрОригинальный Qwen3.6 35BДистиллированный (данные Opus)Claude Opus 4.6
Масштаб параметров35B (3B активные)35B (3B активные)Закрыто, оценочно сотни B
Способность рассужденийНативная QwenИнтегрированные паттерны OpusФлагманский уровень
Скорость выводаБыстрая (3B активные)Быстрая (3B активные)Зависит от API
Открытый код
Локальное развёртывание
СтоимостьБесплатноБесплатноОплата за токен

Руководство по началу работы

Требования к оборудованию

КонфигурацияРекомендуемая настройка
Минимальная24 ГБ VRAM (требуется квантование GGUF Q4)
Рекомендуемая48 ГБ VRAM (GGUF Q8 или FP16 частичные слои)
Идеальная80 ГБ VRAM (A100/H100, FP16 полная точность)
Mac96 ГБ+ унифицированная память (M2/M3 Max)

Ожидаемые варианты использования

  1. Улучшенный локальный вывод: Получение уровня рассуждений, близкого к Opus, на потребительском оборудовании
  2. Базовая модель для агентов: Ядро рассуждений для автономных агентов
  3. База для вторичной дистилляции: Может быть далее дистиллирована в меньшие модели (7B, 14B)
  4. База для файн-тюнинга: SFT для конкретных доменов поверх дистилляции

Оценка рыночной ситуации

Эта дистиллированная модель представляет собой явную тенденцию: open-source сообщество стремительно сокращает разрыв в способностях, «дистиллируя выводы закрытых флагманов».

Jackrong уже реализовал несколько успешных проектов дистилляции ранее. Выбор Qwen3.6 35B A3B в качестве базы указывает на то, что эта архитектура MoE быстро набирает признание в сообществе. Для сценариев, требующих мощного локального развёртывания рассуждений, это вариант, за которым стоит следить.