Causal Forcing++：清华MLグループのリアルタイム動画生成、数ステップ蒸留でインタラクティブ体験を実現

動画生成分野の長年の課題：拡散モデルは品質が高いが遅く、自己回帰モデルは速いが品質が劣る。両者の間には常に壁があるように思えた。

清華大学MLグループのCausal Forcing++は、拡散蒸留でこの壁を壊す野心を持っている——拡散モデルにもリアルタイムインタラクティブ動画生成を可能にする。

拡散蒸留の古い問題、新しい解法

拡散蒸留は新しい概念ではない。SDXL TurboやLCMといった初期の研究が既に証明している：50ステップの拡散プロセスを1〜4ステップに蒸留することは可能だ。しかし動画生成は画像生成より遥かに複雑だ——各フレームが美しく見えるだけでなく、フレーム間の時間的一貫性も必要だ。時間次元における因果依存は、画像蒸留が扱う必要のないものだ。

Causal Forcing++の鍵は「causal forcing」という言葉にある。動画生成における各フレームは前のフレームに依存する——30フレーム目の人物の位置は29フレーム目によって決まり、29フレーム目は28フレーム目に依存する。これは因果の連鎖だ。

蒸留の難しさはここにある：教師モデルは50ステップでゆっくり生成するが、学生モデルは4ステップで高速に生成する。両者の中間ステップのhidden stateは完全に一致しない。従来の蒸留方法は最終出力のみをマッチングし、中間プロセスの因果構造を無視する。

Causal Forcing++は、学生モデルが高速生成時も教師モデルと同じ因果依存関係を維持するように強制する。結果だけを学ぶのではなく、プロセスを学ぶのだ。

「リアルタイムインタラクティブ」が意味すること

リアルタイムインタラクティブ動画生成は単に「生成速度が速い」ことではない。それは以下のことを意味する：

ユーザーがテキスト/画像プロンプトを入力し、秒単位で動画を確認できる
生成中に条件を変更でき（例：「この人を左に歩かせて」）、動画が即時応答する
結果を見るために数分待つ必要がない——インタラクション体験はChatGPTでのチャットに似ている

この目標が本当に達成されれば、動画生成は「オフラインバッチタスク」から「インタラクティブな創作ツール」に進化する。

課題

品質損失：蒸留後の動画の画質と時間的一貫性は実際にどれだけ劣化するか？
汎化能力：蒸留モデルは訓練分布上で性能が良いが、新しいシーン（見たことのない物体の組み合わせ、新しい運動パターン）では崩れるか？
再現性：蒸留はハイパーパラメータに敏感だ。コミュニティはこの結果を再現できるか？

僕の判断

方向性は正しい。動画生成が本当にワークフローに入るには、レイテンシを秒単位に下げる必要がある。Causal Forcing++が品質と速度の間で許容可能なバランスを見つけられれば、動画生成パイプラインの標準コンポーネントになる可能性がある。

主要ソース：

Hugging Face Daily Papers（2026-05-15）
清華大学MLグループ（thu-ml）

拡散蒸留の古い問題、新しい解法

「リアルタイムインタラクティブ」が意味すること

課題

僕の判断

関連コンテンツ

ACC：エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

RLVRにおけるトークンレベル信用割り当ての再考：DelTAが識別器視点で挑む

MLLMは人を正確に読めるか？MM-OCEANが明らかにする「正解の51%は推測」