视频生成领域的老大难问题:扩散模型质量好但慢,自回归模型快但质量差。两者之间似乎总有一道墙。
清华 ML 组这篇 Causal Forcing++ 的野心是用扩散蒸馏把墙拆掉——让扩散模型也能做到实时交互式视频生成。
扩散蒸馏的老问题,新解法
扩散蒸馏不是新概念。SDXL Turbo、LCM 这些早期工作已经证明:把 50 步的扩散过程蒸馏到 1-4 步是可行的。但视频生成比图像复杂得多——不仅要每一帧好看,还要帧与帧之间连贯,时间维度上的因果依赖是图像蒸馏不需要处理的。
Causal Forcing++ 的关键在于"causal forcing"这个词。视频生成中的每一帧都依赖前面的帧——第 30 帧的人物位置由第 29 帧决定,第 29 帧又由第 28 帧决定。这是一个因果链。
蒸馏的难点在于:教师模型用 50 步缓慢生成,学生模型用 4 步快速生成,两者在中间步骤的 hidden state 完全不匹配。传统的蒸馏方法只匹配最终输出,忽略了中间过程的因果结构。
Causal Forcing++ 强制学生模型在快速生成时,仍然保持与教师模型相同的因果依赖关系。不是只学结果,是学过程。
"实时交互式"意味着什么
实时交互式视频生成不是"生成速度快"这么简单。它意味着:
- 用户可以输入文本/图像 prompt,秒级看到视频
- 可以在生成过程中修改条件(比如"让这个人往左走"),视频即时响应
- 不需要等几分钟才能看到结果,交互体验和 ChatGPT 聊天类似
如果这个目标真的达成了,视频生成会从"离线批量任务"变成"交互式创作工具"。
社区反应
这篇在 Hugging Face Daily Papers 上拿了 72 票,来自 thu-ml(清华机器学习组)。这个组之前的 CogVideo 等工作在社区有一定影响力,所以关注度不低。
需要验证的点
- 质量损失:蒸馏后视频的画面质量和时间连贯性到底打了多少折扣?
- 泛化能力:蒸馏模型通常在训练分布上表现好,但面对新场景(没见过的物体组合、新运动模式)会不会崩?
- 可复现性:蒸馏对超参数敏感,社区能不能复现这个结果?
我的判断
方向是对的。视频生成要真正进入工作流,延迟必须降到秒级。Causal Forcing++ 如果能在质量和速度之间找到一个可接受的平衡点,它可能成为视频生成 pipeline 中的标准环节。
但别急着下结论。蒸馏视频生成这个方向过去两年有不少"看起来很美但实际用起来差口气"的工作。关键看开源代码和预训练模型的质量——如果只发论文不放模型,那就只是学术竞赛。
主要来源:
- Hugging Face Daily Papers(2026-05-15)
- 清华 ML 组(thu-ml)