C
ChaoBro

DFlash спекулятивное декодирование: 6-кратное ускорение на Qwen3/Gemma-4/Kimi-K2, доступно на потребительских GPU

DFlash спекулятивное декодирование: 6-кратное ускорение на Qwen3/Gemma-4/Kimi-K2, доступно на потребительских GPU

Главный вывод

DFlash — на данный момент самое примечательное решение в области спекулятивного декодирования: параллельная предсказание нескольких токенов на базе Block Diffusion достигает до 6-кратного ускорения инференса на основных моделях, таких как Qwen3.5, Gemma-4 и Kimi-K2, при нулевой потере точности. Для команд, развёртывающих LLM на собственных серверах, это прямое решение для снижения затрат на GPU и повышения скорости отклика.

Технический принцип

Традиционный инференс LLM — это авторегрессивная генерация токен за токеном — каждый шаг выводит только один токен, затем генерирует следующий на основе полного контекста. Это коренная причина медленного инференса LLM.

Ключевая инновация DFlash — черновая модель Block Diffusion:

Шаг Традиционный метод Метод DFlash
Генерация черновика Маленькая черновая модель генерирует N токенов по одному Block Diffusion генерирует 16 токенов параллельно за один проход
Верификация цели Большая модель проверяет черновые токены по одному Большая модель проверяет весь блок за один проход
Механизм принятия Останавливается при первом несовпадении Проверяет все токены перед фиксацией

Ключевое отличие: и черновик, и верификация требуют только одного прямого прохода, а не N последовательных проходов.

Экспериментальные данные

Производительность Qwen3.5

GPU Исходная скорость С DFlash Ускорение
RTX 4000 Ada 20GB ~37 токенов/с 161.85 токенов/с 4.31×
Потребительская RTX 3090 Не опубликовано 400+ токенов/с До 6×

Поддержка нескольких моделей

DFlash не ограничивается одной моделью. Подтверждённая совместимость включает:

  • Qwen3.5: Основная модель для китайскоязычных сценариев
  • Gemma-4-26B-A4B: Опенсорсная MoE-модель от Google
  • Kimi-K2: Опенсорсная модель от Moonshot AI
  • GPT OSS: Опенсорсная модель от OpenAI

Сравнение с существующими решениями

Решение Ускорение Потеря точности Сценарий использования
EAGLE-3 Базовый Нет Общий
DFlash До 2.5× vs EAGLE-3 Нет Общий
Спекулятивное декодирование (традиционное) 1.5-2× Небольшая Специфические модели

Версия MLX: Нативная поддержка Apple Silicon

DFlash-MLX специально оптимизирована для Apple Silicon через фреймворк MLX + кастомные Metal-ядра:

  • Черновик Block Diffusion генерирует 16 токенов за один проход
  • Целевая модель проверяет за один проход
  • Каждый токен проверяется перед фиксацией, гарантируя нулевую потерю точности
  • Уже 645+ звёзд, активное сообщество

Почему это важно сейчас

Q2 2026 — фокус конкуренции за эффективность инференса опенсорсных моделей:

  1. Модели становятся всё больше: Qwen3.6-35B, MiniMax M2.7 (230B) и другие продолжают расти в параметрах
  2. Давление на стоимость GPU: Одна карта RTX 5090 стоит ~$2000, кластеры — ещё дороже
  3. Требования к пользовательскому опыту растут: 400 токенов/с vs 67 токенов/с означает снижение задержки взаимодействия с 15с до 2.5с

Технологии ускорения инференса, такие как DFlash, переходят из категории «опциональная оптимизация» в «необходимая инфраструктура».

Рекомендации к действию

  1. Команды с GPU-серверами: Интегрируйте DFlash в существующие развёртывания для 3-6-кратного повышения пропускной способности без дополнительных затрат на оборудование
  2. Разработчики Apple Silicon: Попробуйте DFlash-MLX — скорость запуска больших моделей на MacBook получит качественный скачок
  3. Этап выбора модели: Приоритизируйте модели, проверенные с DFlash (Qwen3.5, Gemma-4, Kimi-K2), чтобы избежать проблем
  4. Сценарии, чувствительные к стоимости: Комбинируйте квантование (AWQ 4-bit) + DFlash — потребительские GPU могут обеспечить опыт, близкий к флагманским картам