NVIDIA SANA-WM：2.6B 参数的开源世界模型，单 GPU 生成长达一分钟的 720p 视频

视频生成领域又扔了一颗炸弹。不过这次不是来自某个闭源的创业公司，而是 NVIDIA——而且它是开源的。

SANA-WM，一个 2.6B 参数的世界模型，能用一张图加一条相机轨迹，在单张 GPU 上生成 720p、长达一分钟的可控视频。在 Hacker News 上，它拿到了 312 分、128 条讨论——这是 HN 首页上罕见的 AI 视频生成话题能拿到的热度。

数字背后的意义

先看几个关键数据：

这些数字组合在一起，传递出一个清晰的信息：高质量视频生成正在从"云计算专属"走向"本地可运行"。

SANA-WM 能做到这一点，核心在于它的架构设计。

传统的 Transformer 用全 softmax 注意力，序列长度增长时内存和计算量呈平方级增长。对于一分钟的视频（假设 30fps，就是 1800 帧），全注意力根本扛不住——NVIDIA 自己在论文里写了：all-softmax 方案在 60 秒时就 OOM 了。

SANA-WM 的解法叫做混合线性注意力（Hybrid Linear Attention）：把逐帧的 Gated DeltaNet 和周期性的 softmax 注意力结合起来。Gated DeltaNet 负责高效地维护长期状态，周期性 softmax 负责在关键时刻做精细的注意力计算。

这个组合的结果是：记忆开销随着序列长度线性增长，而不是平方增长。这就是为什么 SANA-WM 能处理一分钟的长视频，而其他方案在几秒时就爆显存了。

光能生成视频还不够，SANA-WM 的关键卖点是可控性。

它实现了一个双分支相机控制系统：一个粗粒度的全局姿态分支负责整体相机运动，一个细粒度的像素对齐几何分支负责局部精度。两者配合，可以实现精确的 6-DoF（六自由度）相机轨迹跟踪。

简单说就是：你告诉模型"相机从左边移到右边，然后向上仰视"，它生成的视频会严格按照这个轨迹来，不会自由发挥。

SANA-WM 的生成过程分两步：

这种"先生成、再精炼"的设计在图像生成领域很常见（比如 SDXL），但在视频生成中应用得还不多。SANA-WM 把它搬到了长视频场景，效果显著。

SANA-WM 最大的价值可能不在技术指标，而在于它选择了开源。

当前的视频生成领域，Runway、Pika、Luma、Kling 等商业产品占据主导，但它们都是闭源的。研究者和小团队想在这个方向做探索，缺乏高质量的开源基线模型。

SANA-WM 填补了这个空白。虽然模型权重标注为"SOON"（尚未发布），但一旦开放，它很可能成为开源视频生成社区的新起点。

论文里提到了几个对比基准：LingBot-World 和 HY-WorldPlay 是工业级的基线模型。SANA-WM 在视觉质量上与它们相当，但吞吐量提高了 36 倍。

这个对比值得玩味。它说明：在视频生成这个赛道上，参数量和计算量并不直接等同于效果。 好的架构设计可以在更小的模型上实现可比的质量。

SANA-WM 的发布是 NVIDIA 在开源 AI 领域的一个标志性动作。它证明了即使是工业级的视频生成能力，也可以以轻量、开源、可本地运行的形式提供。

对于那些想在视频生成领域做研究的团队来说，SANA-WM 的出现降低了门槛。对于那些想在本地跑视频生成的开发者来说，RTX 5090 上 34 秒生成一分钟视频的性能，已经足够实用。

开源世界模型的时代，可能比我们想象的要来得更快。