C
ChaoBro

NVIDIA LongLive-2.0:NVFP4 フルスタック並列インフラ、長尺動画生成の学習を2.15倍高速化、推論は45.7 FPSを達成

NVIDIA LongLive-2.0:NVFP4 フルスタック並列インフラ、長尺動画生成の学習を2.15倍高速化、推論は45.7 FPSを達成

NVIDIAは複数の研究機関と共同で本日、LongLive-2.0を発表しました。Hugging Face Daily Papersで瞬時に1,270以上のupvotesを獲得した論文です。タイトルは地味に見えますが、内容は技術的に非常に高度です:NVFP4 4ビット精度を学習から推論までの全プロセスに貫通させた、初の長尺動画生成システムです。

長尺動画生成(特に自己回帰型のマルチショットやインタラクティブ動画)は、長らくVRAM(ビデオメモリ)速度という2つのボトルネックに阻まれてきました。LongLive-2.0の答えは、精度を4ビットまで落としつつ、学習と推論の両端でシーケンス並列処理を行うというものです。

中核となるイノベーション:3つのステップ

1. Balanced SP:シーケンス並列自己回帰学習

LongLive-2.0はBalanced SPと呼ばれるシーケンス並列手法を提案しています。その中核となる考え方は、自己回帰学習において「クリーンな履歴」と「ノイズターゲット」のタイムブロックをペアにして同一のGPUランク上に配置し、自然にティーチングフォースマスクを形成するというものです。SP対応のチャンクVAEエンコーディングと組み合わせることで、動画が長くなるほどGEMM計算の割合が増大し、この手法の加速効果がより顕著になります。

簡単に言えば:ODE初期化も分布マッチング蒸留(DMD)も不要で、拡散モデルから直接、長尺のマルチショット自己回帰拡散モデルへ微調整(ファインチューニング)が可能です。

2. NVFP4 フルスタック精度

学習フェーズ:NVFP4精度によりGPU VRAM消費を削減しつつ、GEMM計算を高速化します。 推論フェーズ:Blackwell GPU上でW4A4 NVFP4推論を有効化し、KVキャッシュもNVFP4に量子化。非同期ストリーミングVAEデコードと組み合わせることで、エンドツーエンドのスループットが1.84倍向上します。

Blackwell以外のGPUでは、チームはシーケンス並列推論を用いてBlackwellの速度に匹敵させます。量子化されたKVキャッシュは、SPにおけるGPU間通信のオーバーヘッドも低減します。

3. クリーンな学習パイプライン

既存のSelf-Forcing系手法は通常、ODE初期化とDMD蒸留を必要とし、手順が複雑で不安定性を招きやすかったです。LongLive-2.0は、高品質なインフラ + 高品質なデータセット = クリーンで直接的な学習プロセスであることを証明しました。中間ステップを挟まず、ワンステップで完結します。

パフォーマンスデータ

指標 数値
学習高速化 最大 2.15倍
推論高速化 最大 1.84倍
推論フレームレート LongLive-2.0-5B で 45.7 FPS を達成
リアルタイム生成 独立したLoRA重みにより2〜4ステップのリアルタイム生成へ変換可能

注目すべき理由

LongLive-2.0の意義は「また一つの動画生成モデル」にとどまりません。ある一つの事実を証明しています:NVFP4精度は推論だけでなく、学習にも適用可能であるということです。これは、将来の大規模モデル学習が、より低精度・低VRAM消費で完了しつつ、パフォーマンスを維持あるいは向上させられることを意味します。

これは動画生成分野において特に重要です。動画データのシーケンス長はテキストを大幅に上回るため、VRAMと計算のボトルネックがより顕著になるからです。

コード、モデル、デモはすでにオープンソース化されています:github.com/NVlabs/LongLive

主な情報源:

  • arXiv:2605.18739 - LongLive-2.0 論文
  • NVIDIA LongLive GitHub リポジトリ