DFlash спекулятивное декодирование: 6-кратное ускорение на Qwen3/Gemma-4/Kimi-K2, доступно на потребительских GPU

Главный вывод

DFlash — на данный момент самое примечательное решение в области спекулятивного декодирования: параллельная предсказание нескольких токенов на базе Block Diffusion достигает до 6-кратного ускорения инференса на основных моделях, таких как Qwen3.5, Gemma-4 и Kimi-K2, при нулевой потере точности. Для команд, развёртывающих LLM на собственных серверах, это прямое решение для снижения затрат на GPU и повышения скорости отклика.

Технический принцип

Традиционный инференс LLM — это авторегрессивная генерация токен за токеном — каждый шаг выводит только один токен, затем генерирует следующий на основе полного контекста. Это коренная причина медленного инференса LLM.

Ключевая инновация DFlash — черновая модель Block Diffusion:

Шаг	Традиционный метод	Метод DFlash
Генерация черновика	Маленькая черновая модель генерирует N токенов по одному	Block Diffusion генерирует 16 токенов параллельно за один проход
Верификация цели	Большая модель проверяет черновые токены по одному	Большая модель проверяет весь блок за один проход
Механизм принятия	Останавливается при первом несовпадении	Проверяет все токены перед фиксацией

Ключевое отличие: и черновик, и верификация требуют только одного прямого прохода, а не N последовательных проходов.

Экспериментальные данные

Производительность Qwen3.5

GPU	Исходная скорость	С DFlash	Ускорение
RTX 4000 Ada 20GB	~37 токенов/с	161.85 токенов/с	4.31×
Потребительская RTX 3090	Не опубликовано	400+ токенов/с	До 6×

Поддержка нескольких моделей

DFlash не ограничивается одной моделью. Подтверждённая совместимость включает:

Qwen3.5: Основная модель для китайскоязычных сценариев
Gemma-4-26B-A4B: Опенсорсная MoE-модель от Google
Kimi-K2: Опенсорсная модель от Moonshot AI
GPT OSS: Опенсорсная модель от OpenAI

Сравнение с существующими решениями

Решение	Ускорение	Потеря точности	Сценарий использования
EAGLE-3	Базовый	Нет	Общий
DFlash	До 2.5× vs EAGLE-3	Нет	Общий
Спекулятивное декодирование (традиционное)	1.5-2×	Небольшая	Специфические модели

Версия MLX: Нативная поддержка Apple Silicon

DFlash-MLX специально оптимизирована для Apple Silicon через фреймворк MLX + кастомные Metal-ядра:

Черновик Block Diffusion генерирует 16 токенов за один проход
Целевая модель проверяет за один проход
Каждый токен проверяется перед фиксацией, гарантируя нулевую потерю точности
Уже 645+ звёзд, активное сообщество

Почему это важно сейчас

Q2 2026 — фокус конкуренции за эффективность инференса опенсорсных моделей:

Модели становятся всё больше: Qwen3.6-35B, MiniMax M2.7 (230B) и другие продолжают расти в параметрах
Давление на стоимость GPU: Одна карта RTX 5090 стоит ~$2000, кластеры — ещё дороже
Требования к пользовательскому опыту растут: 400 токенов/с vs 67 токенов/с означает снижение задержки взаимодействия с 15с до 2.5с

Технологии ускорения инференса, такие как DFlash, переходят из категории «опциональная оптимизация» в «необходимая инфраструктура».

Главный вывод

Технический принцип

Экспериментальные данные

Производительность Qwen3.5

Поддержка нескольких моделей

Сравнение с существующими решениями

Версия MLX: Нативная поддержка Apple Silicon

Почему это важно сейчас

Рекомендации к действию

Похожие материалы

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

flue: сооснователь Astro открыл фреймворк песочницы для AI-агентов

LMSYS P2P-передача весов: синхронизация RL-обучения 1T параметров за секунды