C
ChaoBro

NVIDIAがSANA-WMをオープンソース化:2.6Bパラメータのワールドモデル、単一GPUで1分間720p動画を生成

NVIDIAがSANA-WMをオープンソース化:2.6Bパラメータのワールドモデル、単一GPUで1分間720p動画を生成

NVIDIAリサーチがまた大物を投下した。

SANA-WM——26億パラメータのオープンソースワールドモデル。1枚の画像とカメラ軌跡を入力すると、720p、最長1分の制御可能な動画を出力する。しかも推論にはGPUが1枚あればいい。トレーニングもH100 64枚で15日だけ。

Hacker Newsでは374ポイント、143コメント。コミュニティの反応は驚くほど一致していた:これは又一个の「PPTモデル」ではなく、実際に実行可能なエンジニアリング成果だ。

ワールドモデルとは何か、なぜNVIDIAがこれをやるのか

簡単に言えば、ワールドモデルは生成モデルではない。生成モデルはプロンプトから画像を凭空に創造する——例えば「屋根の上の猫」と言えば猫を描いてくれる。ワールドモデルは物理法則を理解する——屋根の左側に猫がいる写真を与えて「カメラを右に動かして」と言えば、猫が画面の中央に徐々に移動していく連続動画を生成し、しかも猫の姿勢や光の変化が物理法則に従っている。

それがSANA-WMの核心卖点が「正確な6-DoFカメラ制御」である理由だ。単に「看起来像の動画を生成する」のではなく、「指定されたカメラ軌跡に従って正確に対応するフレームを生成する」。

これは自動運転シミュレーション、ロボットトレーニング、ゲーム開発にとって巨大な意味を持つ。

4つの技術ハイライト、一つずつ見る

ハイブリッド線形アテンション(Hybrid Linear Attention)。 これがSANA-WMの最も核心的なアーキテクチャイノベーション。フレームレベルのGated DeltaNetと周期的なsoftmaxアテンションを組み合わせる。平易な言葉で言えば:モデルが長系列の情報をよりメモリ効率の良い方法で記憶できるようにする。従来のsoftmaxアテンションは60秒の動画を処理すると直接OOM(メモリ不足)になるが、SANA-WMの再帰的アーキテクチャはメモリ使用量を時間の2乗ではなく線形で増加させる。

二枝カメラ制御。 1つの粗粒度グローバルポーズ枝、1つの細粒度ピクセルアライン幾何枝。簡単に理解すれば:1つは「カメラ全体がどこへ動くか」を管理し、もう1つは「フレーム内の各ピクセルがどう変化すべきか」を管理する。2つの枝が協力して、生成された動画が全体の運動軌跡に従いつつ、細部でも間違わないことを保証する。

2ステージ生成パイプライン。 第1ステージで基本動画を生成し、第2ステージで専用の17B長動画リファインモデルを使ってテクスチャ、運動品質、後期の一貫性を向上させる。これはパラメータを積み重ねるのではなく、異なる問題をレイヤー別に解決する。

ロバストな注釈パイプライン。 SANA-WMは約21.3万本の公開動画クリップでトレーニングされ、各クリップにはメトリックスケールの6-DoFカメラポーズラベルが付いている。公開動画から正確なカメラ運動データを抽出する——このステップ自体がかなり技術的な含量を持つ。

効率比較:圧倒的

コミュニティを最も興奮させたのは品質ではなく——効率だ。

同等の品質レベルで、SANA-WMのスループットはLingBot-WorldやHY-WorldPlayなどの大規模工業ベースラインより36倍高い。トレーニングコストはH100 64枚で15日だけ。推論側では、H100 1枚でリアルタイムに60秒720p動画を生成できる。

さらに夸张なのは蒸留版:RTX 5090 1枚、NVFP4量子化で、60秒720pクリップのノイズ除去生成をわずか34秒で完了する。

これは何を意味するか?動画生成の閾値が急速に引き下げられているということ。以前はクラウドコンピューティングクラスターが必要だったタスクが、今やコンシューマーグレードのグラフィックスカード1枚で処理できる。

オープンソースの意味

SANA-WMはオープンソースだ。モデル重みは「近日公開」——ページには「MODELS (SOON)」と書かれている——少なくともアーキテクチャと論文はすでに公開されている。

動画生成这个赛道で、オープンソースの力がゲームルールを変えつつある。ClosedAIたちは金を積んでより大きなモデルを作れるが、オープンソースコミュニティのスピードが彼らの優位性をどんどん不明瞭にしている。

NVIDIAが今回SANA-WMをオープンソースすることを選んだのは、一方面では学界と開発者コミュニティで発言権を抢占し、他方では自社GPUエコシステムのための布石——結局、モデルが速く、安く走れるほど、NVIDIAカードを買う人が増えるのだから。

次に何を見るか

モデル重みがいつ公開されるか、品質が実際どうなのか、コミュニティの再現が通るかどうか——これらはもう少し待つ必要がある。

しかし一点はすでにclearだ:動画生成は「金燃やしゲーム」から「エンジニアリング競争」に変わりつつある。最少の計算リソースで最高の成果を出せる者が勝つ。

そしてNVIDIAは今回、明らかにルールメーカーになりたいと思っている。