C
ChaoBro

SANA-WM:26 亿参数、64 张 H100 训 15 天,NVIDIA 把分钟级世界模型做到了单卡部署

世界模型的"效率竞赛"

世界模型(World Model)是 AI 领域最性感的方向之一——一个能理解物理世界规律、能根据动作生成未来视频帧的模型。

但过去的世界模型有两个问题:。参数量动辄数十亿,训练需要数千张 GPU 几周甚至几个月的时间,推理时更要占用多张顶级 GPU。

SANA-WM 的态度是:我们可以做得更小、更快、更便宜,而且效果不输。

2.6B 参数,对标工业级大模型

SANA-WM 只有 2.6B 参数。作为对比,LingBot-World 和 HY-WorldPlay 等工业级基线模型的参数量通常是它的数倍。

但论文声称 SANA-WM 在视觉质量上达到了与这些大模型相当的水平——这是一个相当 bold 的 claim。

关键指标:

  • 720p 分辨率,一分钟长度的视频生成
  • 精确的相机控制(6-DoF 轨迹跟踪)
  • 训练效率:仅用 ~213K 公开视频片段,64 张 H100 训练 15 天
  • 推理效率:单 GPU 生成 60 秒视频;蒸馏 + NVFP4 量化版本在单张 RTX 5090 上用 34 秒去噪

四个核心设计

混合线性注意力(Hybrid Linear Attention)

这是效率的核心。SANA-WM 将帧间的 Gated DeltaNet(GDN)与 softmax 注意力结合起来,在保持长上下文建模能力的同时大幅降低内存消耗。

简单理解:GDN 处理帧与帧之间的时间依赖(更省内存),softmax 注意力处理帧内的空间细节(更精确)。两者互补。

双分支相机控制

确保生成的视频严格遵循输入的 6-DoF 相机轨迹。一个分支负责空间定位,一个负责时间平滑,两者协同工作。

两阶段生成管线

第一阶段生成基础视频序列,第二阶段用 long-video refiner 对第一阶段输出进行精化。这个设计类似于图像生成中的"草稿-精修"流程,但在视频领域实现起来复杂得多——需要在时间一致性上做额外保障。

鲁棒标注管线

从公开视频中提取准确的 metric-scale 6-DoF 相机位姿,作为动作标签。这一步的质量直接影响模型学习到的物理规律准确性。

开源的意义

SANA-WM 的开源对于世界模型社区是一个重要的推动力。在此之前,高质量的世界模型几乎全部闭源,研究社区只能在论文和 demo 视频中看到效果。

现在,一个 2.6B 参数、可以在消费级 GPU(RTX 5090)上部署的开源世界模型,让独立研究者和小型团队也能进行世界模型相关的实验和应用开发。

潜在应用

分钟级世界模型的潜在应用场景包括:

  • 游戏和虚拟环境中的动态场景生成
  • 自动驾驶仿真(生成不同相机角度和动作下的道路场景)
  • 影视制作中的预可视化(pre-visualization)
  • 具身智能的训练环境生成

主要来源: