NVIDIA 研究院又扔了个大招。
SANA-WM——一个 2.6B 参数的开源世界模型,输入一张图片和一段相机轨迹,就能输出 720p、长达一分钟的可控视频。更关键的是:推理只需要一张 GPU。训练也只要 64 张 H100 跑 15 天。
在 Hacker News 上拿了 374 分、143 条评论。社区的反应出奇地一致:这不是又一个"PPT 模型",而是实打实能跑起来的工程成果。
世界模型是什么,为什么 NVIDIA 突然搞这个
简单说,世界模型不是生成模型。生成模型根据提示词凭空创造画面——比如你告诉它"一只猫在屋顶上",它给你画一只猫。世界模型理解物理规律——你给它一张猫在屋顶左边的照片,告诉它"相机向右移动",它生成猫慢慢移到画面中间的连续视频,而且猫的姿势、光影变化都符合物理规律。
这就是为什么 SANA-WM 的核心卖点是"精确的 6-DoF 相机控制"。它不只是"生成一段看起来像的视频",而是"按照你给定的相机运动轨迹,精确生成对应的画面"。
这对自动驾驶仿真、机器人训练、游戏开发的意义是巨大的。
四个技术亮点,一个一个看
混合线性注意力(Hybrid Linear Attention)。 这是 SANA-WM 最核心的架构创新。它把帧级别的 Gated DeltaNet 和周期性的 softmax 注意力结合起来。翻译成人话就是:用一种更省内存的方式让模型记住长序列中的信息。传统的 softmax 注意力在处理 60 秒视频时会直接 OOM(显存溢出),但 SANA-WM 的递归式架构让显存占用随时间线性增长而不是二次方增长。
双分支相机控制。 一个粗粒度全局姿态分支,一个细粒度像素对齐几何分支。简单理解就是:一个管"相机整体往哪走",一个管"画面里每个像素该怎么变"。两个分支协作,保证生成的视频既符合整体运动轨迹,又在细节上不出错。
两阶段生成管线。 第一阶段生成基础视频,第二阶段用专门的 17B 长视频精炼模型来提升纹理、运动质量和后期的一致性。这不是堆参数,而是分层解决不同问题。
鲁棒的标注管线。 SANA-WM 用大约 21.3 万个公开视频片段训练,每个片段都带有公制尺度的 6-DoF 相机姿态标签。从公开视频中提取精确的相机运动数据,这一步本身就很有技术含量。
效率对比:碾压级的
最让社区兴奋的不是质量——而是效率。
在相同质量水平下,SANA-WM 的吞吐量比 LingBot-World 和 HY-WorldPlay 等大规模工业基线高出 36 倍。训练成本只要 64 张 H100 跑 15 天。推理端,一张 H100 就能实时生成 60 秒 720p 视频。
更夸张的是蒸馏版:单张 RTX 5090,用 NVFP4 量化,34 秒就能完成一个 60 秒 720p 片段的去噪生成。
这意味着什么?意味着视频生成的门槛正在被快速拉低。以前需要云计算集群才能跑的任务,现在一张消费级显卡就能搞定。
开源的意义
SANA-WM 是开源的。模型权重"即将发布"——页面上写的是 "MODELS (SOON)",但至少架构和论文已经公开了。
在视频生成这个赛道,开源的力量正在改变游戏规则。ClosedAI 们可以砸钱堆更大的模型,但开源社区的速度正在让它们的优势越来越不明显。
NVIDIA 这次选择开源 SANA-WM,一方面是在学术界和开发者社区中抢占话语权,另一方面也是在给自家的 GPU 生态铺路——毕竟,模型跑得越快、越便宜,买 NVIDIA 显卡的人就越多。
下一步看什么
模型权重什么时候发布,质量到底如何,社区复现能不能跑通——这些都要等等看。
但有一点已经很清楚了:视频生成正在从"烧钱游戏"变成"工程竞赛"。谁能用最少的计算资源跑出最好的效果,谁就赢了。
而 NVIDIA 这次,明显是想当规则制定者。