NVIDIA 开源 SANA-WM：2.6B 参数的世界模型，单 GPU 跑 1 分钟 720p 视频生成

NVIDIA 研究院又扔了个大招。

SANA-WM——一个 2.6B 参数的开源世界模型，输入一张图片和一段相机轨迹，就能输出 720p、长达一分钟的可控视频。更关键的是：推理只需要一张 GPU。训练也只要 64 张 H100 跑 15 天。

在 Hacker News 上拿了 374 分、143 条评论。社区的反应出奇地一致：这不是又一个"PPT 模型"，而是实打实能跑起来的工程成果。

世界模型是什么，为什么 NVIDIA 突然搞这个

简单说，世界模型不是生成模型。生成模型根据提示词凭空创造画面——比如你告诉它"一只猫在屋顶上"，它给你画一只猫。世界模型理解物理规律——你给它一张猫在屋顶左边的照片，告诉它"相机向右移动"，它生成猫慢慢移到画面中间的连续视频，而且猫的姿势、光影变化都符合物理规律。

这就是为什么 SANA-WM 的核心卖点是"精确的 6-DoF 相机控制"。它不只是"生成一段看起来像的视频"，而是"按照你给定的相机运动轨迹，精确生成对应的画面"。

这对自动驾驶仿真、机器人训练、游戏开发的意义是巨大的。

四个技术亮点，一个一个看

混合线性注意力（Hybrid Linear Attention）。 这是 SANA-WM 最核心的架构创新。它把帧级别的 Gated DeltaNet 和周期性的 softmax 注意力结合起来。翻译成人话就是：用一种更省内存的方式让模型记住长序列中的信息。传统的 softmax 注意力在处理 60 秒视频时会直接 OOM（显存溢出），但 SANA-WM 的递归式架构让显存占用随时间线性增长而不是二次方增长。

双分支相机控制。 一个粗粒度全局姿态分支，一个细粒度像素对齐几何分支。简单理解就是：一个管"相机整体往哪走"，一个管"画面里每个像素该怎么变"。两个分支协作，保证生成的视频既符合整体运动轨迹，又在细节上不出错。

两阶段生成管线。 第一阶段生成基础视频，第二阶段用专门的 17B 长视频精炼模型来提升纹理、运动质量和后期的一致性。这不是堆参数，而是分层解决不同问题。

鲁棒的标注管线。 SANA-WM 用大约 21.3 万个公开视频片段训练，每个片段都带有公制尺度的 6-DoF 相机姿态标签。从公开视频中提取精确的相机运动数据，这一步本身就很有技术含量。

效率对比：碾压级的

最让社区兴奋的不是质量——而是效率。

在相同质量水平下，SANA-WM 的吞吐量比 LingBot-World 和 HY-WorldPlay 等大规模工业基线高出 36 倍。训练成本只要 64 张 H100 跑 15 天。推理端，一张 H100 就能实时生成 60 秒 720p 视频。

更夸张的是蒸馏版：单张 RTX 5090，用 NVFP4 量化，34 秒就能完成一个 60 秒 720p 片段的去噪生成。

这意味着什么？意味着视频生成的门槛正在被快速拉低。以前需要云计算集群才能跑的任务，现在一张消费级显卡就能搞定。

开源的意义

SANA-WM 是开源的。模型权重"即将发布"——页面上写的是 "MODELS (SOON)"，但至少架构和论文已经公开了。

在视频生成这个赛道，开源的力量正在改变游戏规则。ClosedAI 们可以砸钱堆更大的模型，但开源社区的速度正在让它们的优势越来越不明显。

NVIDIA 这次选择开源 SANA-WM，一方面是在学术界和开发者社区中抢占话语权，另一方面也是在给自家的 GPU 生态铺路——毕竟，模型跑得越快、越便宜，买 NVIDIA 显卡的人就越多。

下一步看什么

模型权重什么时候发布，质量到底如何，社区复现能不能跑通——这些都要等等看。

但有一点已经很清楚了：视频生成正在从"烧钱游戏"变成"工程竞赛"。谁能用最少的计算资源跑出最好的效果，谁就赢了。

而 NVIDIA 这次，明显是想当规则制定者。

世界模型是什么，为什么 NVIDIA 突然搞这个

四个技术亮点，一个一个看

效率对比：碾压级的

开源的意义

下一步看什么

相关内容

Chrome DevTools 官方发布 MCP 服务器：AI 编程代理终于能"看到"浏览器了

Google I/O 2026：搜索的"Agent 化"不是升级，是重写

Google SynthID 水印技术被 OpenAI、Nvidia 等巨头采用：AI 内容溯源进入标准化时代