C
ChaoBro

Causal Forcing++:清华 ML 组的实时视频生成方案,几步蒸馏出交互式体验

Causal Forcing++:清华 ML 组的实时视频生成方案,几步蒸馏出交互式体验

视频生成领域的老大难问题:扩散模型质量好但慢,自回归模型快但质量差。两者之间似乎总有一道墙。

清华 ML 组这篇 Causal Forcing++ 的野心是用扩散蒸馏把墙拆掉——让扩散模型也能做到实时交互式视频生成。

扩散蒸馏的老问题,新解法

扩散蒸馏不是新概念。SDXL Turbo、LCM 这些早期工作已经证明:把 50 步的扩散过程蒸馏到 1-4 步是可行的。但视频生成比图像复杂得多——不仅要每一帧好看,还要帧与帧之间连贯,时间维度上的因果依赖是图像蒸馏不需要处理的。

Causal Forcing++ 的关键在于"causal forcing"这个词。视频生成中的每一帧都依赖前面的帧——第 30 帧的人物位置由第 29 帧决定,第 29 帧又由第 28 帧决定。这是一个因果链。

蒸馏的难点在于:教师模型用 50 步缓慢生成,学生模型用 4 步快速生成,两者在中间步骤的 hidden state 完全不匹配。传统的蒸馏方法只匹配最终输出,忽略了中间过程的因果结构。

Causal Forcing++ 强制学生模型在快速生成时,仍然保持与教师模型相同的因果依赖关系。不是只学结果,是学过程。

"实时交互式"意味着什么

实时交互式视频生成不是"生成速度快"这么简单。它意味着:

  • 用户可以输入文本/图像 prompt,秒级看到视频
  • 可以在生成过程中修改条件(比如"让这个人往左走"),视频即时响应
  • 不需要等几分钟才能看到结果,交互体验和 ChatGPT 聊天类似

如果这个目标真的达成了,视频生成会从"离线批量任务"变成"交互式创作工具"。

社区反应

这篇在 Hugging Face Daily Papers 上拿了 72 票,来自 thu-ml(清华机器学习组)。这个组之前的 CogVideo 等工作在社区有一定影响力,所以关注度不低。

需要验证的点

  1. 质量损失:蒸馏后视频的画面质量和时间连贯性到底打了多少折扣?
  2. 泛化能力:蒸馏模型通常在训练分布上表现好,但面对新场景(没见过的物体组合、新运动模式)会不会崩?
  3. 可复现性:蒸馏对超参数敏感,社区能不能复现这个结果?

我的判断

方向是对的。视频生成要真正进入工作流,延迟必须降到秒级。Causal Forcing++ 如果能在质量和速度之间找到一个可接受的平衡点,它可能成为视频生成 pipeline 中的标准环节。

但别急着下结论。蒸馏视频生成这个方向过去两年有不少"看起来很美但实际用起来差口气"的工作。关键看开源代码和预训练模型的质量——如果只发论文不放模型,那就只是学术竞赛。

主要来源:

  • Hugging Face Daily Papers(2026-05-15)
  • 清华 ML 组(thu-ml)