视频生成领域又扔了一颗炸弹。不过这次不是来自某个闭源的创业公司,而是 NVIDIA——而且它是开源的。
SANA-WM,一个 2.6B 参数的世界模型,能用一张图加一条相机轨迹,在单张 GPU 上生成 720p、长达一分钟的可控视频。在 Hacker News 上,它拿到了 312 分、128 条讨论——这是 HN 首页上罕见的 AI 视频生成话题能拿到的热度。
数字背后的意义
先看几个关键数据:
- 2.6B 参数:在视频生成模型里,这个规模算"轻量级"。对比一下,一些工业级的视频模型参数量动辄 10B 甚至更高
- 64 张 H100 训练 15 天:训练成本控制在可控范围内,不像某些动辄万卡集群的项目
- 单张 H100 推理:生成一段一分钟 720p 视频只需要一张 GPU
- RTX 5090 上 34 秒:蒸馏版 + NVFP4 量化后,消费级旗舰显卡 34 秒完成 60 秒视频去噪
这些数字组合在一起,传递出一个清晰的信息:高质量视频生成正在从"云计算专属"走向"本地可运行"。
架构创新:混合线性注意力
SANA-WM 能做到这一点,核心在于它的架构设计。
传统的 Transformer 用全 softmax 注意力,序列长度增长时内存和计算量呈平方级增长。对于一分钟的视频(假设 30fps,就是 1800 帧),全注意力根本扛不住——NVIDIA 自己在论文里写了:all-softmax 方案在 60 秒时就 OOM 了。
SANA-WM 的解法叫做混合线性注意力(Hybrid Linear Attention):把逐帧的 Gated DeltaNet 和周期性的 softmax 注意力结合起来。Gated DeltaNet 负责高效地维护长期状态,周期性 softmax 负责在关键时刻做精细的注意力计算。
这个组合的结果是:记忆开销随着序列长度线性增长,而不是平方增长。这就是为什么 SANA-WM 能处理一分钟的长视频,而其他方案在几秒时就爆显存了。
精准相机控制
光能生成视频还不够,SANA-WM 的关键卖点是可控性。
它实现了一个双分支相机控制系统:一个粗粒度的全局姿态分支负责整体相机运动,一个细粒度的像素对齐几何分支负责局部精度。两者配合,可以实现精确的 6-DoF(六自由度)相机轨迹跟踪。
简单说就是:你告诉模型"相机从左边移到右边,然后向上仰视",它生成的视频会严格按照这个轨迹来,不会自由发挥。
两阶段生成管道
SANA-WM 的生成过程分两步:
- 第一阶段:2.6B 的主模型生成基础视频,保证内容连贯性和相机控制的准确性
- 第二阶段:一个 17B 的长视频精炼器对第一阶段的输出进行细节增强,提升纹理、运动质量和时间一致性
这种"先生成、再精炼"的设计在图像生成领域很常见(比如 SDXL),但在视频生成中应用得还不多。SANA-WM 把它搬到了长视频场景,效果显著。
开源意味着什么?
SANA-WM 最大的价值可能不在技术指标,而在于它选择了开源。
当前的视频生成领域,Runway、Pika、Luma、Kling 等商业产品占据主导,但它们都是闭源的。研究者和小团队想在这个方向做探索,缺乏高质量的开源基线模型。
SANA-WM 填补了这个空白。虽然模型权重标注为"SOON"(尚未发布),但一旦开放,它很可能成为开源视频生成社区的新起点。
竞争格局
论文里提到了几个对比基准:LingBot-World 和 HY-WorldPlay 是工业级的基线模型。SANA-WM 在视觉质量上与它们相当,但吞吐量提高了 36 倍。
这个对比值得玩味。它说明:在视频生成这个赛道上,参数量和计算量并不直接等同于效果。 好的架构设计可以在更小的模型上实现可比的质量。
结语
SANA-WM 的发布是 NVIDIA 在开源 AI 领域的一个标志性动作。它证明了即使是工业级的视频生成能力,也可以以轻量、开源、可本地运行的形式提供。
对于那些想在视频生成领域做研究的团队来说,SANA-WM 的出现降低了门槛。对于那些想在本地跑视频生成的开发者来说,RTX 5090 上 34 秒生成一分钟视频的性能,已经足够实用。
开源世界模型的时代,可能比我们想象的要来得更快。
论文: arXiv | 项目页: nvlabs.github.io/Sana/WM