SANA-WM：26 亿参数、64 张 H100 训 15 天，NVIDIA 把分钟级世界模型做到了单卡部署

世界模型的"效率竞赛"

世界模型（World Model）是 AI 领域最性感的方向之一——一个能理解物理世界规律、能根据动作生成未来视频帧的模型。

但过去的世界模型有两个问题：大和贵。参数量动辄数十亿，训练需要数千张 GPU 几周甚至几个月的时间，推理时更要占用多张顶级 GPU。

SANA-WM 的态度是：我们可以做得更小、更快、更便宜，而且效果不输。

SANA-WM 只有 2.6B 参数。作为对比，LingBot-World 和 HY-WorldPlay 等工业级基线模型的参数量通常是它的数倍。

但论文声称 SANA-WM 在视觉质量上达到了与这些大模型相当的水平——这是一个相当 bold 的 claim。

关键指标：

混合线性注意力（Hybrid Linear Attention）

这是效率的核心。SANA-WM 将帧间的 Gated DeltaNet（GDN）与 softmax 注意力结合起来，在保持长上下文建模能力的同时大幅降低内存消耗。

简单理解：GDN 处理帧与帧之间的时间依赖（更省内存），softmax 注意力处理帧内的空间细节（更精确）。两者互补。

双分支相机控制

确保生成的视频严格遵循输入的 6-DoF 相机轨迹。一个分支负责空间定位，一个负责时间平滑，两者协同工作。

两阶段生成管线

第一阶段生成基础视频序列，第二阶段用 long-video refiner 对第一阶段输出进行精化。这个设计类似于图像生成中的"草稿-精修"流程，但在视频领域实现起来复杂得多——需要在时间一致性上做额外保障。

鲁棒标注管线

从公开视频中提取准确的 metric-scale 6-DoF 相机位姿，作为动作标签。这一步的质量直接影响模型学习到的物理规律准确性。

SANA-WM 的开源对于世界模型社区是一个重要的推动力。在此之前，高质量的世界模型几乎全部闭源，研究社区只能在论文和 demo 视频中看到效果。

现在，一个 2.6B 参数、可以在消费级 GPU（RTX 5090）上部署的开源世界模型，让独立研究者和小型团队也能进行世界模型相关的实验和应用开发。

分钟级世界模型的潜在应用场景包括：

主要来源：

arXiv:2605.15178 SANA-WM
Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
NVIDIA
项目页面