世界模型的"效率竞赛"
世界模型(World Model)是 AI 领域最性感的方向之一——一个能理解物理世界规律、能根据动作生成未来视频帧的模型。
但过去的世界模型有两个问题:大和贵。参数量动辄数十亿,训练需要数千张 GPU 几周甚至几个月的时间,推理时更要占用多张顶级 GPU。
SANA-WM 的态度是:我们可以做得更小、更快、更便宜,而且效果不输。
2.6B 参数,对标工业级大模型
SANA-WM 只有 2.6B 参数。作为对比,LingBot-World 和 HY-WorldPlay 等工业级基线模型的参数量通常是它的数倍。
但论文声称 SANA-WM 在视觉质量上达到了与这些大模型相当的水平——这是一个相当 bold 的 claim。
关键指标:
- 720p 分辨率,一分钟长度的视频生成
- 精确的相机控制(6-DoF 轨迹跟踪)
- 训练效率:仅用 ~213K 公开视频片段,64 张 H100 训练 15 天
- 推理效率:单 GPU 生成 60 秒视频;蒸馏 + NVFP4 量化版本在单张 RTX 5090 上用 34 秒去噪
四个核心设计
混合线性注意力(Hybrid Linear Attention)
这是效率的核心。SANA-WM 将帧间的 Gated DeltaNet(GDN)与 softmax 注意力结合起来,在保持长上下文建模能力的同时大幅降低内存消耗。
简单理解:GDN 处理帧与帧之间的时间依赖(更省内存),softmax 注意力处理帧内的空间细节(更精确)。两者互补。
双分支相机控制
确保生成的视频严格遵循输入的 6-DoF 相机轨迹。一个分支负责空间定位,一个负责时间平滑,两者协同工作。
两阶段生成管线
第一阶段生成基础视频序列,第二阶段用 long-video refiner 对第一阶段输出进行精化。这个设计类似于图像生成中的"草稿-精修"流程,但在视频领域实现起来复杂得多——需要在时间一致性上做额外保障。
鲁棒标注管线
从公开视频中提取准确的 metric-scale 6-DoF 相机位姿,作为动作标签。这一步的质量直接影响模型学习到的物理规律准确性。
开源的意义
SANA-WM 的开源对于世界模型社区是一个重要的推动力。在此之前,高质量的世界模型几乎全部闭源,研究社区只能在论文和 demo 视频中看到效果。
现在,一个 2.6B 参数、可以在消费级 GPU(RTX 5090)上部署的开源世界模型,让独立研究者和小型团队也能进行世界模型相关的实验和应用开发。
潜在应用
分钟级世界模型的潜在应用场景包括:
- 游戏和虚拟环境中的动态场景生成
- 自动驾驶仿真(生成不同相机角度和动作下的道路场景)
- 影视制作中的预可视化(pre-visualization)
- 具身智能的训练环境生成
主要来源:
- arXiv:2605.15178 SANA-WM
- Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
- NVIDIA
- 项目页面