NVIDIA LongLive-2.0：NVFP4 フルスタック並列インフラ、長尺動画生成の学習を2.15倍高速化、推論は45.7 FPSを達成

NVIDIAは複数の研究機関と共同で本日、LongLive-2.0を発表しました。Hugging Face Daily Papersで瞬時に1,270以上のupvotesを獲得した論文です。タイトルは地味に見えますが、内容は技術的に非常に高度です：NVFP4 4ビット精度を学習から推論までの全プロセスに貫通させた、初の長尺動画生成システムです。

長尺動画生成（特に自己回帰型のマルチショットやインタラクティブ動画）は、長らくVRAM（ビデオメモリ）と速度という2つのボトルネックに阻まれてきました。LongLive-2.0の答えは、精度を4ビットまで落としつつ、学習と推論の両端でシーケンス並列処理を行うというものです。

中核となるイノベーション：3つのステップ

1. Balanced SP：シーケンス並列自己回帰学習

LongLive-2.0はBalanced SPと呼ばれるシーケンス並列手法を提案しています。その中核となる考え方は、自己回帰学習において「クリーンな履歴」と「ノイズターゲット」のタイムブロックをペアにして同一のGPUランク上に配置し、自然にティーチングフォースマスクを形成するというものです。SP対応のチャンクVAEエンコーディングと組み合わせることで、動画が長くなるほどGEMM計算の割合が増大し、この手法の加速効果がより顕著になります。

簡単に言えば：ODE初期化も分布マッチング蒸留（DMD）も不要で、拡散モデルから直接、長尺のマルチショット自己回帰拡散モデルへ微調整（ファインチューニング）が可能です。

2. NVFP4 フルスタック精度

学習フェーズ：NVFP4精度によりGPU VRAM消費を削減しつつ、GEMM計算を高速化します。推論フェーズ：Blackwell GPU上でW4A4 NVFP4推論を有効化し、KVキャッシュもNVFP4に量子化。非同期ストリーミングVAEデコードと組み合わせることで、エンドツーエンドのスループットが1.84倍向上します。

Blackwell以外のGPUでは、チームはシーケンス並列推論を用いてBlackwellの速度に匹敵させます。量子化されたKVキャッシュは、SPにおけるGPU間通信のオーバーヘッドも低減します。

3. クリーンな学習パイプライン

既存のSelf-Forcing系手法は通常、ODE初期化とDMD蒸留を必要とし、手順が複雑で不安定性を招きやすかったです。LongLive-2.0は、高品質なインフラ + 高品質なデータセット = クリーンで直接的な学習プロセスであることを証明しました。中間ステップを挟まず、ワンステップで完結します。

パフォーマンスデータ

指標	数値
学習高速化	最大 2.15倍
推論高速化	最大 1.84倍
推論フレームレート	LongLive-2.0-5B で 45.7 FPS を達成
リアルタイム生成	独立したLoRA重みにより2〜4ステップのリアルタイム生成へ変換可能

注目すべき理由

LongLive-2.0の意義は「また一つの動画生成モデル」にとどまりません。ある一つの事実を証明しています：NVFP4精度は推論だけでなく、学習にも適用可能であるということです。これは、将来の大規模モデル学習が、より低精度・低VRAM消費で完了しつつ、パフォーマンスを維持あるいは向上させられることを意味します。

これは動画生成分野において特に重要です。動画データのシーケンス長はテキストを大幅に上回るため、VRAMと計算のボトルネックがより顕著になるからです。

コード、モデル、デモはすでにオープンソース化されています：github.com/NVlabs/LongLive

主な情報源：

arXiv:2605.18739 - LongLive-2.0 論文
NVIDIA LongLive GitHub リポジトリ

中核となるイノベーション：3つのステップ

1. Balanced SP：シーケンス並列自己回帰学習

2. NVFP4 フルスタック精度

3. クリーンな学習パイプライン

パフォーマンスデータ

注目すべき理由

関連コンテンツ

APWA：マルチエージェントシステムを真に並列化する分散アーキテクチャ

Dual-Dimensional Consistency：推論時スケーリングでトークン消費を10倍削減する新手法

MemEye：マルチモーダルエージェントの記憶能力を評価する視覚中心型フレームワーク