NVIDIA 联合多家研究机构今天放出了 LongLive-2.0——一篇在 Hugging Face Daily Papers 上瞬间拿到 1270+ upvotes 的论文。标题看起来平平无奇,但内容相当硬核:第一个将 NVFP4 4-bit 精度贯穿训练和推理全流程的长视频生成系统。
长视频生成(尤其是自回归多镜头、交互式视频)一直卡在两个地方:显存和速度。LongLive-2.0 给出的答案是——把精度压到 4-bit,同时在训练和推理两端做序列并行。
核心创新:三步走
1. Balanced SP:序列并行自回归训练
LongLive-2.0 提出了一个叫 Balanced SP 的序列并行方案。它的核心思路是:在自回归训练中,把"干净历史"和"噪声目标"时间块配对放在同一个 GPU rank 上,天然形成 teacher-forcing mask。配合 SP-aware 的分块 VAE 编码,视频越长,GEMM 计算占比越大,这个方案的加速效果就越明显。
简单来说:不用 ODE 初始化,也不用分布匹配蒸馏(DMD),直接从扩散模型微调成长的多镜头自回归扩散模型。
2. NVFP4 全栈精度
训练阶段:NVFP4 精度降低 GPU 显存消耗,同时加速 GEMM 计算。 推理阶段:在 Blackwell GPU 上启用 W4A4 NVFP4 推理,将 KV cache 也量化到 NVFP4,加上异步流式 VAE 解码,端到端吞吐提升 1.84 倍。
在非 Blackwell GPU 上,团队用序列并行推理来匹配 Blackwell 的速度,量化后的 KV cache 还能降低 SP 的 GPU 间通信开销。
3. 干净的训练管线
现有的 Self-Forcing 系列方法通常需要 ODE 初始化和 DMD 蒸馏,步骤复杂且容易引入不稳定性。LongLive-2.0 证明:高质量的基础设施 + 高质量的数据集 = 干净直接的训练流程。一步到位,不需要中间步骤。
性能数据
| 指标 | 数值 |
|---|---|
| 训练加速 | 最高 2.15× |
| 推理加速 | 最高 1.84× |
| 推理帧率 | LongLive-2.0-5B 达 45.7 FPS |
| 实时生成 | 可通过独立 LoRA 权重转换为 2-4 步实时生成 |
为什么值得关注
LongLive-2.0 的意义不只是"又一个视频生成模型"。它证明了一件事:NVFP4 精度不是只能用于推理——训练也可以用。这意味着未来的大模型训练可以在更低精度、更低显存消耗的情况下完成,同时保持甚至提升性能。
这对于视频生成领域尤其重要,因为视频数据的序列长度远大于文本,显存和计算瓶颈更加突出。
代码、模型和 demo 已经开源:github.com/NVlabs/LongLive
主要来源:
- arXiv:2605.18739 - LongLive-2.0 论文
- NVIDIA LongLive GitHub 仓库