NVIDIA AnyFlow：视频扩散模型的一次「步数自由」实验，On-Policy 蒸馏能否终结推理步数焦虑

视频生成模型用户可能都有过这种体验：想要快速预览效果时，模型需要跑 50 步，等得心烦；想要高质量输出时，模型跑 50 步出来的效果也未必比 25 步好多少。

NVIDIA 5 月 13 日发布的 AnyFlow 论文（Hugging Face Papers Trending 81 upvote）试图解决这个问题。它的核心想法很直接：让模型自己学会在不同步数下都能工作——而不是像现在这样，每种步数需要单独训练一个蒸馏模型。

推理步数困境

当前的视频扩散模型面临一个结构性问题：

训练时的推理步数是固定的。如果你用 50 步训练了一个模型，推理时最优选就是 50 步。想加速？可以用一致性蒸馏（Consistency Distillation）或 LCM 技术把步数压到 4-8 步。但代价是质量下降，而且你需要单独训练一个蒸馏版本。

这意味着：部署一个视频生成服务，你可能需要维护多个模型——一个高精度版（50 步），一个快速版（4 步），一个中速版（10 步）。每个版本占用显存，每个版本需要单独维护。

AnyFlow 的野心是：一个模型，覆盖全步数范围。

论文的核心方法叫 On-Policy Flow Map Distillation。理解它需要拆开三个概念：

Flow Map（流映射）：在基于流的扩散模型中，从噪声到数据的生成过程被建模为一个连续的流。Flow Map 描述了这个流的变换函数。

On-Policy（在线策略）：蒸馏过程中，模型使用自己的输出作为训练信号，而不是依赖一个固定的 teacher model。这意味着模型在训练中不断用「自己当前版本的输出」来校准自己。

任意步数训练：关键 trick——在训练时随机采样推理步数 k，然后让模型学习：无论 k 是多少，都能在 k 步内完成生成。这让模型在推理时可以接受任意步数作为输入参数。

效果上，模型学到了一个步数-质量的连续谱，而不是在某个固定步数上达到最优。1 步能出个大概，10 步有明显提升，25 步接近最优——而且这些都是在同一个模型上实现的。

AnyFlow 在 Hugging Face Papers Trending 上获得了 81 个 upvote，附带的 GitHub 仓库有 202 星。考虑到论文刚发布不到两天，这个关注度说明社区对「任意步数」这个方向有兴趣。

论文作者来自 NVIDIA 研究团队。考虑到 NVIDIA 在视频生成领域的投入（Cosmos、Video LDM 等项目），AnyFlow 很可能不是纯学术探索，而是为其产品线的技术储备。

在「减少推理步数」这个赛道上，已有几个主要方向：

方法	核心思路	局限
Consistency Models	训练模型使其输出在不同时间步保持一致	训练不稳定，质量损失明显
LCM	Latent Consistency Models，蒸馏减少步数	需要为不同步数单独训练
Progressive Distillation	逐步蒸馏，每轮减半步数	仍然是离散的几个步数点
AnyFlow	训练时随机采样步数，在线策略蒸馏	新方法，需要更多验证

AnyFlow 的独特之处在于它不是追求「最少步数」，而是追求「任意步数」。这是一个不同的设计哲学——它不假设用户只需要某一个固定步数，而是承认不同场景需要不同步数，并让一个模型来适配所有场景。

这个方向有实际价值，但也需要冷静看待。

值得关注的点：

需要验证的点：

视频生成的下一步竞争不只是「谁能生成更逼真的视频」，更是「谁能以合理的成本生成可用的视频」。AnyFlow 在这个方向上做了一个有价值的尝试——但离生产级应用，至少还需要一轮社区复现和压力测试。

主要来源：