C
ChaoBro

Moonshot 开源 FlashKDA:Kimi Delta Attention 的高性能 CUTLASS 核实现

Moonshot 开源 FlashKDA:Kimi Delta Attention 的高性能 CUTLASS 核实现

コアデータ

次元FlashKDAFLA ベースライン高速化
前方推論(H20)最適化された CUTLASS カーネルflash-linear-attention1.72×–2.22×
可変長バッチ処理ネイティブサポート手動処理が必要
バックエンド互換性直接置換プラグアンドプレイ
基盤フレームワークCUTLASSTritonNVIDIA 公式最適化スタック

技術ハイライト

デルタアテンションとは? Kimi K2 シリーズモデルで使用されているデルタアテンションアーキテクチャは、従来の Transformer セルフアテンションとは異なり、増分計算を通じて冗長な操作を削減し、長いコンテキストシナリオに特に適しています。Moonshot は以前に Triton ベースのリファレンス実装をリリースしていましたが、パフォーマンスの最適化にはまだ余地がありました。

なぜ CUTLASS? CUTLASS は NVIDIA の公式 CUDA テンプレートライブラリで、FlashAttention-3 と同じ基盤の上に構築されています。Triton と比較して、CUTLASS は GPU メモリ階層とスレッドスケジューリングをより細かく制御でき、H20 などの国産コンピューティングカードで特に顕著です。

可変長バッチ処理の価値 実際の推論シナリオでは、リクエスト間でシーケンス長が大きく異なります。FlashKDA は可変長バッチ処理をネイティブにサポートし、従来のアプローチでのパディングの無駄を回避し、スループットを直接向上させます。

Qwen FlashQLA との比較

FlashKDA (Moonshot)FlashQLA (Qwen)
ターゲットアーキテクチャデルタアテンションGDN(ゲーテッドデルタネットワーク)
基盤フレームワークCUTLASSTileLang
H20 高速化1.72×–2.22×2–3×
オープンソース日付2026-04-212026-04-29
適用モデルKimi K2 シリーズQwen3-Next/3.5/3.6

両方とも中国チームによるアテンションカーネル最適化の独立した探求です。Moonshot は CUTLASS ルートを、Qwen は TileLang ルートを選択しています。国産モデルで推論最適化を目指すチームにとって、これら 2 つのプロジェクトは 2 つの異なる技術パスの参考を提供します。

実践的な意義

Kimi ユーザー向け:Kimi K2 シリーズモデルをローカルでデプロイまたはファインチューニングしている場合、FlashKDA はモデルコードを変更せずに既存のアテンションバックエンドを直接置き換えることができます。

推論最適化開発者向け:これは高品質な CUTLASS アテンションカーネルのリファレンス実装であり、可変長バッチ処理のコード構造は学ぶ価値があります。

コンピューティング調達向け:H20 でのベンチマークデータは、ソフトウェアレベルの最適化が既存のハードウェアからより多くのパフォーマンスを引き出せることを示しています。必ずしも次世代チップを待つ必要はありません。

はじめに

git clone https://github.com/moonshot-ai/FlashKDA.git
cd FlashKDA
pip install -e .

インストール後、flash-linear-attention のバックエンドとして直接置き換え可能です:

from flash_linear_attention import set_backend
from flashkda import KDACudaBackend

set_backend(KDACudaBackend())

情勢判断

中国の大規模モデルチームは「モデルアーキテクチャの革新」から「低レベル演算子最適化」の深みに進んでいます。FlashKDA と FlashQLA の相次ぐオープンソースは、2 つの技術路線間の競争の始まりを示しています。推論コストとレイテンシーで優位性を獲得した者が、エッジ/デバイス Agent 市場で先行することになります。