C
ChaoBro

NVIDIA SANA-WM:26億パラメータのオープンソース「ワールドモデル」、単一GPUで最大1分間の720p動画を生成可能

動画生成分野にまたしても衝撃が走りました。ただし今回は、ある閉じられたスタートアップ企業ではなく、NVIDIAから——しかもそれはオープンソースです。

SANA-WMは、26億パラメータ(2.6B)のワールドモデルで、1枚の入力画像とカメラ軌道情報のみを用いて、単一GPU上で720p解像度・最大1分間の制御可能な動画を生成できます。Hacker News(HN)では、312ポイント・128件の議論を獲得——これはHNのトップページにおいて、AIによる動画生成というテーマが得た、極めて稀な注目度です。

数字が示す意味

まず、いくつかのキーデータを見てみましょう:

  • 26億パラメータ:動画生成モデルとしては「軽量級」に分類されます。比較として、一部の産業レベル動画モデルは100億(10B)以上ものパラメータを有しています。
  • 64枚のH100 GPUで15日間の学習:学習コストは現実的な範囲内に抑えられており、何万枚ものGPUを必要とするような大規模クラスターベースのプロジェクトとは一線を画します。
  • 単一H100 GPUでの推論:1分間の720p動画を生成するのに、GPUは1枚で十分です。
  • RTX 5090で34秒:蒸留版+NVFP4量子化を適用した場合、コンシューマー向けハイエンドGPUでも、60秒間の720p動画のデノイズ処理をわずか34秒で完了できます。

これらの数字が組み合わさることで、明確なメッセージが伝わってきます:高品質な動画生成は、もはや「クラウド専用」から「ローカル実行可能」へと移行しつつあるのです。

アーキテクチャ革新:ハイブリッド線形アテンション

SANA-WMがこれを実現できたのは、そのアーキテクチャ設計にあります。

従来のTransformerは全結合softmaxアテンションを用いており、シーケンス長が増加すると、メモリ使用量と計算量が二乗オーダーで膨張します。例えば1分間の動画(30fps想定=1800フレーム)では、全結合softmax方式は到底耐えられません——NVIDIA自身の論文にも明記されています:「60秒の動画生成では、all-softmax方式でOOM(Out of Memory)が発生する」。

SANA-WMの解決策は、ハイブリッド線形アテンション(Hybrid Linear Attention) と呼ばれるものです:フレーム単位のゲート付きデルタネット(Gated DeltaNet)と、周期的に動作するsoftmaxアテンションを組み合わせています。Gated DeltaNetは長期的な状態を効率よく維持し、周期的softmaxは重要なタイミングで精密なアテンション計算を行います。

この組み合わせの結果として、メモリ使用量(記憶領域)はシーケンス長に対して線形増加となり、二乗増加ではなくなります。これが、SANA-WMが1分間の長尺動画を処理できる理由であり、他の手法が数秒でGPUメモリをオーバーフローさせる中で、SANA-WMだけがそれを回避できる根拠です。

精密なカメラ制御

動画を生成できることだけでは不十分です。SANA-WMの最大の強みは、制御性(Controllability) にあります。

本モデルは、二重構造のカメラ制御システムを実装しています:1つは粗い粒度のグローバル姿勢ブランチで、全体的なカメラ運動を担当;もう1つは細かい粒度のピクセル対応幾何ブランチで、局所的な精度を担保します。両者が協調することで、正確な6自由度(6-DoF)カメラ軌道追跡が実現されます。

簡単に言うと:「カメラを左から右へ移動させ、その後上向きに仰角を取る」と指示すれば、生成される動画はその通りの軌道に厳密に従い、勝手な動きは一切しません。

2段階生成パイプライン

SANA-WMの生成プロセスは、2つの段階に分けられます:

  1. 第1段階:26億パラメータのメインモデルが基礎動画を生成し、コンテンツの時間的連続性とカメラ制御の正確性を確保します。
  2. 第2段階:170億パラメータ(17B)の「ロングビデオ精製器(Long Video Refiner)」が、第1段階の出力を用いてディテールを強化し、テクスチャ品質・運動の滑らかさ・時間的一貫性を向上させます。

この「まず生成し、次に精製する」アプローチは、画像生成分野(例:SDXL)では広く採用されていますが、動画生成ではまだあまり見られません。SANA-WMはこれを長尺動画という新たなシーンに適用し、顕著な効果を上げています。

オープンソースであるということの意味

SANA-WMの最大の価値は、技術指標にあるのではなく、オープンソースを選択した点にあるかもしれません。

現在の動画生成分野では、Runway、Pika、Luma、Klingなどの商用製品が主流を占めていますが、これらはすべてクローズドソースです。研究者や小規模チームがこの分野で探求を進めるには、高品質なオープンソースベースラインモデルが欠けていました。

SANA-WMは、この空白を埋めました。モデル重みは現時点で「SOON(近日公開)」と表記されていますが、一度公開されれば、オープンソース動画生成コミュニティにとって新たな出発点となる可能性が非常に高いです。

競合状況

論文では、LingBot-WorldおよびHY-WorldPlayといった産業レベルのベースラインモデルとの比較が示されています。SANA-WMは視覚的品質においてこれらと同等ですが、スループット(処理速度)は36倍向上しています。

この比較は興味深い示唆を含んでいます:動画生成という分野において、パラメータ数や計算量は、必ずしも性能と直結しないということです。優れたアーキテクチャ設計によって、より小さなモデルでも同等の品質を実現できるのです。

まとめ

SANA-WMの発表は、NVIDIAがオープンソースAI分野において打ち出した象徴的な一歩です。それは、産業レベルの動画生成能力であっても、軽量・オープンソース・ローカル実行可能な形で提供可能であることを証明しています。

動画生成分野における研究を志すチームにとって、SANA-WMの登場は参入障壁を大幅に下げます。また、ローカル環境で動画生成を実行したい開発者にとっては、RTX 5090上で34秒で1分間の動画を生成できるという性能は、すでに実用レベルに達しています。

オープンソース・ワールドモデルの時代は、私たちが想像していたよりも早く到来するかもしれません。

論文: arXiv | プロジェクトページ: nvlabs.github.io/Sana/WM