DFlash 投机解码实测：Qwen3/Gemma-4/Kimi-K2 推理提速 6 倍，消费级 GPU 可用

结论先行

DFlash 是当前投机解码（Speculative Decoding）领域最值得关注的技术方案：基于 Block Diffusion 的多词并行预测，在 Qwen3.5、Gemma-4、Kimi-K2 等主流模型上实现最高 6 倍推理提速，且精度无损。对于自部署 LLM 的团队来说，这是降低 GPU 成本、提升响应速度的直接方案。

技术原理

传统 LLM 推理是逐 token 自回归生成——每次只输出一个 token，然后基于完整上下文再生成下一个。这是 LLM 推理慢的根本原因。

DFlash 的核心创新是 Block Diffusion 草稿模型：

步骤	传统方法	DFlash 方法
草稿生成	小型草稿模型逐 token 生成 N 个 token	Block Diffusion 一次并行生成 16 个 token
目标验证	大模型逐个验证草稿 token	大模型一次性验证整个 block
接受机制	遇到第一个不一致就停止	验证全部 token 后再 commit

关键区别在于：草稿和验证都只需要 一次前向传播（one pass），而不是逐 token 的 N 次前向传播。

实测数据

Qwen3.5 性能

GPU	原始速度	DFlash 加速后	加速比
RTX 4000 Ada 20GB	~37 tok/s	161.85 tok/s	4.31×
消费级 RTX 3090	未公布	400+ tok/s	最高 6×

跨模型支持

DFlash 不仅限于单一模型，已验证兼容：

Qwen3.5：中文场景主力模型
Gemma-4-26B-A4B：Google 开源 MoE 模型
Kimi-K2：月之暗面开源模型
GPT OSS：OpenAI 开源模型

对比现有方案

方案	加速比	精度损失	适用场景
EAGLE-3	基准	无	通用
DFlash	最高 2.5× vs EAGLE-3	无	通用
投机解码（传统）	1.5-2×	小	特定模型

MLX 版本：Apple Silicon 原生支持

DFlash-MLX 专门针对 Apple Silicon 优化，通过 MLX 框架 + 定制 Metal 内核实现：

Block Diffusion 草稿一次生成 16 个 token
目标模型一次性验证
每个 token 在 commit 前都经过验证，保证零精度损失
已有 645+ stars，社区活跃

为什么现在重要

2026 年 Q2 是开源模型推理效率的竞争焦点：

模型越来越大：Qwen3.6-35B、MiniMax M2.7（230B）等模型参数量持续增加
GPU 成本压力大：RTX 5090 单卡约 2000 美元，集群成本更高
用户体验要求提升：400 tok/s vs 67 tok/s，交互延迟从 15s 降到 2.5s

DFlash 这类推理加速技术正在从"可选优化"变成"必配基础设施"。

行动建议

已有 GPU 服务器的团队：在现有部署中接入 DFlash，预期 3-6× 的吞吐提升，硬件成本不变
Apple Silicon 开发者：试用 DFlash-MLX，MacBook 上跑大模型的速度会有质的飞跃
模型选型阶段：优先考虑 DFlash 已验证的模型（Qwen3.5、Gemma-4、Kimi-K2），避免踩坑
成本敏感场景：结合量化（AWQ 4-bit）+ DFlash，消费级 GPU 即可达到接近高端卡的体验

结论先行

技术原理

实测数据

Qwen3.5 性能

跨模型支持

对比现有方案

MLX 版本：Apple Silicon 原生支持

为什么现在重要

行动建议

相关内容

SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

flue：Astro 联合创始人开源的 AI Agent 沙箱框架

LMSYS 万兆参数传输：P2P 权重更新把 1T 模型训练提速到秒级