Moonshot 开源 FlashKDA：Kimi Delta Attention 的高性能 CUTLASS 核实现

コアデータ

次元	FlashKDA	FLA ベースライン	高速化
前方推論（H20）	最適化された CUTLASS カーネル	flash-linear-attention	1.72×–2.22×
可変長バッチ処理	ネイティブサポート	手動処理が必要	✅
バックエンド互換性	直接置換	—	プラグアンドプレイ
基盤フレームワーク	CUTLASS	Triton	NVIDIA 公式最適化スタック

技術ハイライト

デルタアテンションとは？ Kimi K2 シリーズモデルで使用されているデルタアテンションアーキテクチャは、従来の Transformer セルフアテンションとは異なり、増分計算を通じて冗長な操作を削減し、長いコンテキストシナリオに特に適しています。Moonshot は以前に Triton ベースのリファレンス実装をリリースしていましたが、パフォーマンスの最適化にはまだ余地がありました。

なぜ CUTLASS？ CUTLASS は NVIDIA の公式 CUDA テンプレートライブラリで、FlashAttention-3 と同じ基盤の上に構築されています。Triton と比較して、CUTLASS は GPU メモリ階層とスレッドスケジューリングをより細かく制御でき、H20 などの国産コンピューティングカードで特に顕著です。

可変長バッチ処理の価値 実際の推論シナリオでは、リクエスト間でシーケンス長が大きく異なります。FlashKDA は可変長バッチ処理をネイティブにサポートし、従来のアプローチでのパディングの無駄を回避し、スループットを直接向上させます。

Qwen FlashQLA との比較

	FlashKDA (Moonshot)	FlashQLA (Qwen)
ターゲットアーキテクチャ	デルタアテンション	GDN（ゲーテッドデルタネットワーク）
基盤フレームワーク	CUTLASS	TileLang
H20 高速化	1.72×–2.22×	2–3×
オープンソース日付	2026-04-21	2026-04-29
適用モデル	Kimi K2 シリーズ	Qwen3-Next/3.5/3.6

両方とも中国チームによるアテンションカーネル最適化の独立した探求です。Moonshot は CUTLASS ルートを、Qwen は TileLang ルートを選択しています。国産モデルで推論最適化を目指すチームにとって、これら 2 つのプロジェクトは 2 つの異なる技術パスの参考を提供します。

実践的な意義

Kimi ユーザー向け：Kimi K2 シリーズモデルをローカルでデプロイまたはファインチューニングしている場合、FlashKDA はモデルコードを変更せずに既存のアテンションバックエンドを直接置き換えることができます。

推論最適化開発者向け：これは高品質な CUTLASS アテンションカーネルのリファレンス実装であり、可変長バッチ処理のコード構造は学ぶ価値があります。

コンピューティング調達向け：H20 でのベンチマークデータは、ソフトウェアレベルの最適化が既存のハードウェアからより多くのパフォーマンスを引き出せることを示しています。必ずしも次世代チップを待つ必要はありません。

はじめに

git clone https://github.com/moonshot-ai/FlashKDA.git
cd FlashKDA
pip install -e .

インストール後、flash-linear-attention のバックエンドとして直接置き換え可能です：

from flash_linear_attention import set_backend
from flashkda import KDACudaBackend

set_backend(KDACudaBackend())

情勢判断

中国の大規模モデルチームは「モデルアーキテクチャの革新」から「低レベル演算子最適化」の深みに進んでいます。FlashKDA と FlashQLA の相次ぐオープンソースは、2 つの技術路線間の競争の始まりを示しています。推論コストとレイテンシーで優位性を獲得した者が、エッジ/デバイス Agent 市場で先行することになります。

コアデータ

技術ハイライト

Qwen FlashQLA との比較

実践的な意義

はじめに

情勢判断

関連コンテンツ

ViMax：オープンソースのオールインワン動画生成ツール、1つのプロンプトでRunway + ChatGPT + Midjourney + HeyGenを代替

OpenGeoAgent：地理空間分析を自動化するオープンソースマルチモーダルAIエージェント、831スターでGIS界に衝撃

QwenPaw：QwenエコシステムベースのオープンソースパーソナルAIアシスタント、ローカルデプロイとマルチプラットフォーム対応