C
ChaoBro

Moonshot 开源 FlashKDA:Kimi Delta Attention 的高性能 CUTLASS 核实现

Moonshot 开源 FlashKDA:Kimi Delta Attention 的高性能 CUTLASS 核实现

Ключевые данные

ПараметрFlashKDAFLA BaselineУскорение
Прямой вывод (H20)Оптимизированное ядро CUTLASSflash-linear-attention1.72×–2.22×
Пакетная обработка переменной длиныНативная поддержкаТребуется ручная обработка
Совместимость бэкендаПрямая заменаPlug-and-play
Базовый фреймворкCUTLASSTritonОфициальный стек оптимизации NVIDIA

Технические особенности

Что такое Delta Attention? Архитектура Delta Attention, используемая в моделях серии Kimi K2, отличается от традиционного самовнимания Transformer — она сокращает избыточные операции за счёт инкрементальных вычислений, что особенно подходит для сценариев с длинным контекстом. Moonshot ранее выпустила реализацию на базе Triton, но оставался prostor для оптимизации производительности.

Почему CUTLASS? CUTLASS — это официальная библиотека CUDA-шаблонов от NVIDIA, та же основа, на которой построен FlashAttention-3. По сравнению с Triton, CUTLASS обеспечивает более точный контроль над иерархией памяти GPU и планированием потоков, что особенно заметно на H20 и других отечественных вычислительных картах.

Ценность пакетной обработки переменной длины В реальных сценариях вывода длины последовательностей значительно различаются между запросами. FlashKDA нативно поддерживает пакетную обработку переменной длины, избегая потерь на заполнение традиционных подходов и напрямую повышая пропускную способность.

Сравнение с Qwen FlashQLA

FlashKDA (Moonshot)FlashQLA (Qwen)
Целевая архитектураDelta AttentionGDN (Gated Delta Network)
Базовый фреймворкCUTLASSTileLang
Ускорение на H201.72×–2.22×2–3×
Дата open-source2026-04-212026-04-29
Применимые моделиСерия Kimi K2Qwen3-Next/3.5/3.6

Оба проекта представляют собой независимые исследования китайских команд в области оптимизации ядер внимания. Moonshot выбрала путь CUTLASS, а Qwen — TileLang. Для команд, стремящихся оптимизировать вывод на отечественных моделях, эти два проекта предлагают две различные технические траектории.

Практическое значение

Для пользователей Kimi: Если вы развёртываете или файн-тюните модели серии Kimi K2 локально, FlashKDA может напрямую заменить существующий бэкенд внимания без изменения кода модели.

Для разработчиков оптимизации вывода: Это высококачественная справочная реализация ядра внимания на CUTLASS — структура кода пакетной обработки переменной длины заслуживает изучения.

Для закупки вычислительных ресурсов: Бенчмарки на H20 показывают, что оптимизация на уровне программного обеспечения может извлечь больше производительности из существующего оборудования — не обязательно ждать следующего поколения чипов.

Начало работы

git clone https://github.com/moonshot-ai/FlashKDA.git
cd FlashKDA
pip install -e .

После установки может напрямую использоваться как бэкенд flash-linear-attention:

from flash_linear_attention import set_backend
from flashkda import KDACudaBackend

set_backend(KDACudaBackend())

Оценка ландшафта

Китайские команды крупных моделей переходят от «инноваций в архитектуре моделей» к «глубокой оптимизации низкоуровневых операторов». Последовательный open-source FlashKDA и FlashQLA знаменует начало конкуренции между двумя техническими направлениями. Тот, кто получит преимущество в стоимости вывода и задержке, займёт лидирующую позицию на рынке Edge/Device Agent.