C
ChaoBro

NVIDIA LongLive-2.0:NVFP4 全栈并行基础设施,长视频生成训练提速 2.15 倍、推理达 45.7 FPS

NVIDIA LongLive-2.0:NVFP4 全栈并行基础设施,长视频生成训练提速 2.15 倍、推理达 45.7 FPS

NVIDIA 联合多家研究机构今天放出了 LongLive-2.0——一篇在 Hugging Face Daily Papers 上瞬间拿到 1270+ upvotes 的论文。标题看起来平平无奇,但内容相当硬核:第一个将 NVFP4 4-bit 精度贯穿训练和推理全流程的长视频生成系统

长视频生成(尤其是自回归多镜头、交互式视频)一直卡在两个地方:显存速度。LongLive-2.0 给出的答案是——把精度压到 4-bit,同时在训练和推理两端做序列并行。

核心创新:三步走

1. Balanced SP:序列并行自回归训练

LongLive-2.0 提出了一个叫 Balanced SP 的序列并行方案。它的核心思路是:在自回归训练中,把"干净历史"和"噪声目标"时间块配对放在同一个 GPU rank 上,天然形成 teacher-forcing mask。配合 SP-aware 的分块 VAE 编码,视频越长,GEMM 计算占比越大,这个方案的加速效果就越明显。

简单来说:不用 ODE 初始化,也不用分布匹配蒸馏(DMD),直接从扩散模型微调成长的多镜头自回归扩散模型。

2. NVFP4 全栈精度

训练阶段:NVFP4 精度降低 GPU 显存消耗,同时加速 GEMM 计算。 推理阶段:在 Blackwell GPU 上启用 W4A4 NVFP4 推理,将 KV cache 也量化到 NVFP4,加上异步流式 VAE 解码,端到端吞吐提升 1.84 倍

在非 Blackwell GPU 上,团队用序列并行推理来匹配 Blackwell 的速度,量化后的 KV cache 还能降低 SP 的 GPU 间通信开销。

3. 干净的训练管线

现有的 Self-Forcing 系列方法通常需要 ODE 初始化和 DMD 蒸馏,步骤复杂且容易引入不稳定性。LongLive-2.0 证明:高质量的基础设施 + 高质量的数据集 = 干净直接的训练流程。一步到位,不需要中间步骤。

性能数据

指标 数值
训练加速 最高 2.15×
推理加速 最高 1.84×
推理帧率 LongLive-2.0-5B 达 45.7 FPS
实时生成 可通过独立 LoRA 权重转换为 2-4 步实时生成

为什么值得关注

LongLive-2.0 的意义不只是"又一个视频生成模型"。它证明了一件事:NVFP4 精度不是只能用于推理——训练也可以用。这意味着未来的大模型训练可以在更低精度、更低显存消耗的情况下完成,同时保持甚至提升性能。

这对于视频生成领域尤其重要,因为视频数据的序列长度远大于文本,显存和计算瓶颈更加突出。

代码、模型和 demo 已经开源:github.com/NVlabs/LongLive

主要来源:

  • arXiv:2605.18739 - LongLive-2.0 论文
  • NVIDIA LongLive GitHub 仓库