Moonshot 开源 FlashKDA：Kimi Delta Attention 的高性能 CUTLASS 核实现

核心数据

维度	FlashKDA	FLA Baseline	加速比
前向推理（H20）	优化 CUTLASS 核	flash-linear-attention	1.72×–2.22×
变长批处理	原生支持	需手动处理	✅
后端兼容性	直接替换	—	即插即用
底层框架	CUTLASS	Triton	NVIDIA 官方优化栈

Delta Attention 是什么？ Kimi K2 系列模型采用的 Delta Attention 架构与传统 Transformer 自注意力不同，它通过增量计算减少冗余操作，特别适合长上下文场景。Moonshot 之前已发布了基于 Triton 的参考实现，但性能仍有优化空间。

为什么选 CUTLASS？ CUTLASS 是 NVIDIA 官方的 CUDA 模板库，FlashAttention-3 同样基于此构建。相比 Triton，CUTLASS 能更精细地控制 GPU 内存层次和线程调度，在 H20 等国产算力卡上尤为明显。

变长批处理的价值 实际推理场景中，不同请求的序列长度差异巨大。FlashKDA 原生支持变长批处理（Variable-Length Batching），避免了传统方案中的 padding 浪费，直接提升吞吐。

两者都是国产团队在注意力核优化方向的独立探索——Moonshot 走 CUTLASS 路线，Qwen 走 TileLang 路线。对于想在国产模型上做推理优化的团队来说，这两个项目提供了两种不同的技术路径参考。

对 Kimi 用户：如果你在用 Kimi K2 系列模型做本地部署或微调，FlashKDA 可以直接替换现有 attention 后端，无需修改模型代码。

对推理优化开发者：这是一个高质量的 CUTLASS attention 核参考实现，变量长度批处理的代码结构值得学习。

对算力采购方：在 H20 上的实测数据说明，软件层面的优化可以让现有硬件释放更多性能，不一定要等下一代芯片。

git clone https://github.com/moonshot-ai/FlashKDA.git
cd FlashKDA
pip install -e .

安装后可作为 flash-linear-attention 的后端直接替换：

from flash_linear_attention import set_backend
from flashkda import KDACudaBackend

set_backend(KDACudaBackend())

国产大模型团队正在从"模型架构创新"走向"底层算子优化"的深水区。FlashKDA 和 FlashQLA 的相继开源标志着两条技术路线的竞争已经开始。未来谁能在推理成本和延迟上取得优势，谁就能在端侧/边缘 Agent 市场占据先机。