Causal Forcing++：清华 ML 组的实时视频生成方案，几步蒸馏出交互式体验

视频生成领域的老大难问题：扩散模型质量好但慢，自回归模型快但质量差。两者之间似乎总有一道墙。

清华 ML 组这篇 Causal Forcing++ 的野心是用扩散蒸馏把墙拆掉——让扩散模型也能做到实时交互式视频生成。

扩散蒸馏的老问题，新解法

扩散蒸馏不是新概念。SDXL Turbo、LCM 这些早期工作已经证明：把 50 步的扩散过程蒸馏到 1-4 步是可行的。但视频生成比图像复杂得多——不仅要每一帧好看，还要帧与帧之间连贯，时间维度上的因果依赖是图像蒸馏不需要处理的。

Causal Forcing++ 的关键在于"causal forcing"这个词。视频生成中的每一帧都依赖前面的帧——第 30 帧的人物位置由第 29 帧决定，第 29 帧又由第 28 帧决定。这是一个因果链。

蒸馏的难点在于：教师模型用 50 步缓慢生成，学生模型用 4 步快速生成，两者在中间步骤的 hidden state 完全不匹配。传统的蒸馏方法只匹配最终输出，忽略了中间过程的因果结构。

Causal Forcing++ 强制学生模型在快速生成时，仍然保持与教师模型相同的因果依赖关系。不是只学结果，是学过程。

实时交互式视频生成不是"生成速度快"这么简单。它意味着：

如果这个目标真的达成了，视频生成会从"离线批量任务"变成"交互式创作工具"。

这篇在 Hugging Face Daily Papers 上拿了 72 票，来自 thu-ml（清华机器学习组）。这个组之前的 CogVideo 等工作在社区有一定影响力，所以关注度不低。

方向是对的。视频生成要真正进入工作流，延迟必须降到秒级。Causal Forcing++ 如果能在质量和速度之间找到一个可接受的平衡点，它可能成为视频生成 pipeline 中的标准环节。

但别急着下结论。蒸馏视频生成这个方向过去两年有不少"看起来很美但实际用起来差口气"的工作。关键看开源代码和预训练模型的质量——如果只发论文不放模型，那就只是学术竞赛。

主要来源：