视频生成模型用户可能都有过这种体验:想要快速预览效果时,模型需要跑 50 步,等得心烦;想要高质量输出时,模型跑 50 步出来的效果也未必比 25 步好多少。
NVIDIA 5 月 13 日发布的 AnyFlow 论文(Hugging Face Papers Trending 81 upvote)试图解决这个问题。它的核心想法很直接:让模型自己学会在不同步数下都能工作——而不是像现在这样,每种步数需要单独训练一个蒸馏模型。
推理步数困境
当前的视频扩散模型面临一个结构性问题:
训练时的推理步数是固定的。如果你用 50 步训练了一个模型,推理时最优选就是 50 步。想加速?可以用一致性蒸馏(Consistency Distillation)或 LCM 技术把步数压到 4-8 步。但代价是质量下降,而且你需要单独训练一个蒸馏版本。
这意味着:部署一个视频生成服务,你可能需要维护多个模型——一个高精度版(50 步),一个快速版(4 步),一个中速版(10 步)。每个版本占用显存,每个版本需要单独维护。
AnyFlow 的野心是:一个模型,覆盖全步数范围。
On-Policy Flow Map Distillation
论文的核心方法叫 On-Policy Flow Map Distillation。理解它需要拆开三个概念:
Flow Map(流映射):在基于流的扩散模型中,从噪声到数据的生成过程被建模为一个连续的流。Flow Map 描述了这个流的变换函数。
On-Policy(在线策略):蒸馏过程中,模型使用自己的输出作为训练信号,而不是依赖一个固定的 teacher model。这意味着模型在训练中不断用「自己当前版本的输出」来校准自己。
任意步数训练:关键 trick——在训练时随机采样推理步数 k,然后让模型学习:无论 k 是多少,都能在 k 步内完成生成。这让模型在推理时可以接受任意步数作为输入参数。
效果上,模型学到了一个步数-质量的连续谱,而不是在某个固定步数上达到最优。1 步能出个大概,10 步有明显提升,25 步接近最优——而且这些都是在同一个模型上实现的。
在 HF Papers 上的反响
AnyFlow 在 Hugging Face Papers Trending 上获得了 81 个 upvote,附带的 GitHub 仓库有 202 星。考虑到论文刚发布不到两天,这个关注度说明社区对「任意步数」这个方向有兴趣。
论文作者来自 NVIDIA 研究团队。考虑到 NVIDIA 在视频生成领域的投入(Cosmos、Video LDM 等项目),AnyFlow 很可能不是纯学术探索,而是为其产品线的技术储备。
与现有方案的对比
在「减少推理步数」这个赛道上,已有几个主要方向:
| 方法 | 核心思路 | 局限 |
|---|---|---|
| Consistency Models | 训练模型使其输出在不同时间步保持一致 | 训练不稳定,质量损失明显 |
| LCM | Latent Consistency Models,蒸馏减少步数 | 需要为不同步数单独训练 |
| Progressive Distillation | 逐步蒸馏,每轮减半步数 | 仍然是离散的几个步数点 |
| AnyFlow | 训练时随机采样步数,在线策略蒸馏 | 新方法,需要更多验证 |
AnyFlow 的独特之处在于它不是追求「最少步数」,而是追求「任意步数」。这是一个不同的设计哲学——它不假设用户只需要某一个固定步数,而是承认不同场景需要不同步数,并让一个模型来适配所有场景。
我的看法
这个方向有实际价值,但也需要冷静看待。
值得关注的点:
- 部署层面的简化是实实在在的——一个模型替代多个版本
- 在线策略蒸馏的思路比固定 teacher 蒸馏更灵活,因为 teacher 本身也在进化
- 如果 NVIDIA 能将此整合到其视频生成产品线(如 Cosmos),影响力会更大
需要验证的点:
- 论文声称的「任意步数」质量曲线在实际视频上的表现如何?图片生成和视频生成有本质区别——视频需要时间一致性
- 202 星的 GitHub 仓库还处于非常早期阶段,可复现性有待社区检验
- On-Policy 蒸馏的稳定性问题在文献中已有讨论——模型会不会在自训练中逐渐退化?
视频生成的下一步竞争不只是「谁能生成更逼真的视频」,更是「谁能以合理的成本生成可用的视频」。AnyFlow 在这个方向上做了一个有价值的尝试——但离生产级应用,至少还需要一轮社区复现和压力测试。
主要来源:
- Hugging Face Papers - AnyFlow
- NVIDIA Research