Moonshot 开源 FlashKDA：Kimi Delta Attention 的高性能 CUTLASS 核实现

Ключевые данные

Параметр	FlashKDA	FLA Baseline	Ускорение
Прямой вывод (H20)	Оптимизированное ядро CUTLASS	flash-linear-attention	1.72×–2.22×
Пакетная обработка переменной длины	Нативная поддержка	Требуется ручная обработка	✅
Совместимость бэкенда	Прямая замена	—	Plug-and-play
Базовый фреймворк	CUTLASS	Triton	Официальный стек оптимизации NVIDIA

Технические особенности

Что такое Delta Attention? Архитектура Delta Attention, используемая в моделях серии Kimi K2, отличается от традиционного самовнимания Transformer — она сокращает избыточные операции за счёт инкрементальных вычислений, что особенно подходит для сценариев с длинным контекстом. Moonshot ранее выпустила реализацию на базе Triton, но оставался prostor для оптимизации производительности.

Почему CUTLASS? CUTLASS — это официальная библиотека CUDA-шаблонов от NVIDIA, та же основа, на которой построен FlashAttention-3. По сравнению с Triton, CUTLASS обеспечивает более точный контроль над иерархией памяти GPU и планированием потоков, что особенно заметно на H20 и других отечественных вычислительных картах.

Ценность пакетной обработки переменной длины В реальных сценариях вывода длины последовательностей значительно различаются между запросами. FlashKDA нативно поддерживает пакетную обработку переменной длины, избегая потерь на заполнение традиционных подходов и напрямую повышая пропускную способность.

Сравнение с Qwen FlashQLA

	FlashKDA (Moonshot)	FlashQLA (Qwen)
Целевая архитектура	Delta Attention	GDN (Gated Delta Network)
Базовый фреймворк	CUTLASS	TileLang
Ускорение на H20	1.72×–2.22×	2–3×
Дата open-source	2026-04-21	2026-04-29
Применимые модели	Серия Kimi K2	Qwen3-Next/3.5/3.6

Оба проекта представляют собой независимые исследования китайских команд в области оптимизации ядер внимания. Moonshot выбрала путь CUTLASS, а Qwen — TileLang. Для команд, стремящихся оптимизировать вывод на отечественных моделях, эти два проекта предлагают две различные технические траектории.

Практическое значение

Для пользователей Kimi: Если вы развёртываете или файн-тюните модели серии Kimi K2 локально, FlashKDA может напрямую заменить существующий бэкенд внимания без изменения кода модели.

Для разработчиков оптимизации вывода: Это высококачественная справочная реализация ядра внимания на CUTLASS — структура кода пакетной обработки переменной длины заслуживает изучения.

Для закупки вычислительных ресурсов: Бенчмарки на H20 показывают, что оптимизация на уровне программного обеспечения может извлечь больше производительности из существующего оборудования — не обязательно ждать следующего поколения чипов.

Начало работы

git clone https://github.com/moonshot-ai/FlashKDA.git
cd FlashKDA
pip install -e .

После установки может напрямую использоваться как бэкенд flash-linear-attention:

from flash_linear_attention import set_backend
from flashkda import KDACudaBackend

set_backend(KDACudaBackend())

Оценка ландшафта

Китайские команды крупных моделей переходят от «инноваций в архитектуре моделей» к «глубокой оптимизации низкоуровневых операторов». Последовательный open-source FlashKDA и FlashQLA знаменует начало конкуренции между двумя техническими направлениями. Тот, кто получит преимущество в стоимости вывода и задержке, займёт лидирующую позицию на рынке Edge/Device Agent.

Ключевые данные

Технические особенности

Сравнение с Qwen FlashQLA

Практическое значение

Начало работы

Оценка ландшафта

Похожие материалы

ViMax: Универсальный инструмент для генерации видео с открытым исходным кодом — один промпт заменяет Runway + ChatGPT + Midjourney + HeyGen

OpenGeoAgent: Открытый многомодальный ИИ-агент для автоматизированного геопространственного анализа, 831 звезда вызывает потрясение в GIS-сообществе

QwenPaw: Персональный ИИ-ассистент с открытым исходным кодом на базе экосистемы Qwen с поддержкой локального развёртывания и мультиплатформенной интеграции