NVIDIAは複数の研究機関と共同で本日、LongLive-2.0を発表しました。Hugging Face Daily Papersで瞬時に1,270以上のupvotesを獲得した論文です。タイトルは地味に見えますが、内容は技術的に非常に高度です:NVFP4 4ビット精度を学習から推論までの全プロセスに貫通させた、初の長尺動画生成システムです。
長尺動画生成(特に自己回帰型のマルチショットやインタラクティブ動画)は、長らくVRAM(ビデオメモリ)と速度という2つのボトルネックに阻まれてきました。LongLive-2.0の答えは、精度を4ビットまで落としつつ、学習と推論の両端でシーケンス並列処理を行うというものです。
中核となるイノベーション:3つのステップ
1. Balanced SP:シーケンス並列自己回帰学習
LongLive-2.0はBalanced SPと呼ばれるシーケンス並列手法を提案しています。その中核となる考え方は、自己回帰学習において「クリーンな履歴」と「ノイズターゲット」のタイムブロックをペアにして同一のGPUランク上に配置し、自然にティーチングフォースマスクを形成するというものです。SP対応のチャンクVAEエンコーディングと組み合わせることで、動画が長くなるほどGEMM計算の割合が増大し、この手法の加速効果がより顕著になります。
簡単に言えば:ODE初期化も分布マッチング蒸留(DMD)も不要で、拡散モデルから直接、長尺のマルチショット自己回帰拡散モデルへ微調整(ファインチューニング)が可能です。
2. NVFP4 フルスタック精度
学習フェーズ:NVFP4精度によりGPU VRAM消費を削減しつつ、GEMM計算を高速化します。 推論フェーズ:Blackwell GPU上でW4A4 NVFP4推論を有効化し、KVキャッシュもNVFP4に量子化。非同期ストリーミングVAEデコードと組み合わせることで、エンドツーエンドのスループットが1.84倍向上します。
Blackwell以外のGPUでは、チームはシーケンス並列推論を用いてBlackwellの速度に匹敵させます。量子化されたKVキャッシュは、SPにおけるGPU間通信のオーバーヘッドも低減します。
3. クリーンな学習パイプライン
既存のSelf-Forcing系手法は通常、ODE初期化とDMD蒸留を必要とし、手順が複雑で不安定性を招きやすかったです。LongLive-2.0は、高品質なインフラ + 高品質なデータセット = クリーンで直接的な学習プロセスであることを証明しました。中間ステップを挟まず、ワンステップで完結します。
パフォーマンスデータ
| 指標 | 数値 |
|---|---|
| 学習高速化 | 最大 2.15倍 |
| 推論高速化 | 最大 1.84倍 |
| 推論フレームレート | LongLive-2.0-5B で 45.7 FPS を達成 |
| リアルタイム生成 | 独立したLoRA重みにより2〜4ステップのリアルタイム生成へ変換可能 |
注目すべき理由
LongLive-2.0の意義は「また一つの動画生成モデル」にとどまりません。ある一つの事実を証明しています:NVFP4精度は推論だけでなく、学習にも適用可能であるということです。これは、将来の大規模モデル学習が、より低精度・低VRAM消費で完了しつつ、パフォーマンスを維持あるいは向上させられることを意味します。
これは動画生成分野において特に重要です。動画データのシーケンス長はテキストを大幅に上回るため、VRAMと計算のボトルネックがより顕著になるからです。
コード、モデル、デモはすでにオープンソース化されています:github.com/NVlabs/LongLive
主な情報源:
- arXiv:2605.18739 - LongLive-2.0 論文
- NVIDIA LongLive GitHub リポジトリ