NVIDIA LongLive-2.0：NVFP4 全栈并行基础设施，长视频生成训练提速 2.15 倍、推理达 45.7 FPS

NVIDIA 联合多家研究机构今天放出了 LongLive-2.0——一篇在 Hugging Face Daily Papers 上瞬间拿到 1270+ upvotes 的论文。标题看起来平平无奇，但内容相当硬核：第一个将 NVFP4 4-bit 精度贯穿训练和推理全流程的长视频生成系统。

长视频生成（尤其是自回归多镜头、交互式视频）一直卡在两个地方：显存和速度。LongLive-2.0 给出的答案是——把精度压到 4-bit，同时在训练和推理两端做序列并行。

核心创新：三步走

1. Balanced SP：序列并行自回归训练

LongLive-2.0 提出了一个叫 Balanced SP 的序列并行方案。它的核心思路是：在自回归训练中，把"干净历史"和"噪声目标"时间块配对放在同一个 GPU rank 上，天然形成 teacher-forcing mask。配合 SP-aware 的分块 VAE 编码，视频越长，GEMM 计算占比越大，这个方案的加速效果就越明显。

简单来说：不用 ODE 初始化，也不用分布匹配蒸馏（DMD），直接从扩散模型微调成长的多镜头自回归扩散模型。

2. NVFP4 全栈精度

训练阶段：NVFP4 精度降低 GPU 显存消耗，同时加速 GEMM 计算。推理阶段：在 Blackwell GPU 上启用 W4A4 NVFP4 推理，将 KV cache 也量化到 NVFP4，加上异步流式 VAE 解码，端到端吞吐提升 1.84 倍。

在非 Blackwell GPU 上，团队用序列并行推理来匹配 Blackwell 的速度，量化后的 KV cache 还能降低 SP 的 GPU 间通信开销。

3. 干净的训练管线

现有的 Self-Forcing 系列方法通常需要 ODE 初始化和 DMD 蒸馏，步骤复杂且容易引入不稳定性。LongLive-2.0 证明：高质量的基础设施 + 高质量的数据集 = 干净直接的训练流程。一步到位，不需要中间步骤。

性能数据

指标	数值
训练加速	最高 2.15×
推理加速	最高 1.84×
推理帧率	LongLive-2.0-5B 达 45.7 FPS
实时生成	可通过独立 LoRA 权重转换为 2-4 步实时生成

为什么值得关注

LongLive-2.0 的意义不只是"又一个视频生成模型"。它证明了一件事：NVFP4 精度不是只能用于推理——训练也可以用。这意味着未来的大模型训练可以在更低精度、更低显存消耗的情况下完成，同时保持甚至提升性能。

这对于视频生成领域尤其重要，因为视频数据的序列长度远大于文本，显存和计算瓶颈更加突出。

代码、模型和 demo 已经开源：github.com/NVlabs/LongLive

主要来源：

arXiv:2605.18739 - LongLive-2.0 论文
NVIDIA LongLive GitHub 仓库

核心创新：三步走

1. Balanced SP：序列并行自回归训练

2. NVFP4 全栈精度

3. 干净的训练管线

性能数据

为什么值得关注

Related

APWA：让多 Agent 系统真正并行化的分布式架构

Dual-Dimensional Consistency：让推理时缩放省 10 倍 Token 的新方法

MemEye：多模态 Agent 记忆能力的视觉中心评估框架