C
ChaoBro

清华 KVPO:把 GRPO 搬进视频生成,用 KV Cache 做语义探索,让 AI 生成的视频更懂人类审美

视频生成模型的强化学习对齐,之前一直是个技术难题。

文本模型用 RLHF/GRPO 对齐人类偏好已经很成熟了——给模型生成几个回答,让人类偏好模型打分,然后用奖励信号优化。但视频生成不一样:生成一帧视频的计算成本是生成一个 token 的几万倍,你不可能像对待文本那样大量采样、大量评估。

而且视频生成的数学模型也完全不同。主流的自回归视频生成器是基于 ODE(常微分方程)的流匹配(flow matching)架构,而现有的 RL 方法大多基于 SDE(随机微分方程)和噪声探索,两者根本不兼容。

清华的 KVPO 就是来拆这个炸弹的。

问题出在哪

自回归视频生成的过程可以理解为:从第一帧开始,逐帧生成,每一步都依赖前面所有帧的信息。现有的 RL 方法在做策略优化时,通过加噪声来"探索"不同的生成路径。

但问题来了:噪声扰动改变的是像素级别的细节——颜色深浅、纹理粗细——而不是语义级别的内容——故事走向、物体运动轨迹。你想让模型学会"生成更有故事性的视频",但它探索到的只是"这个像素更亮一点"。

这就好比你让一个人学写作,却只允许他改标点符号。

KVPO 的核心创新:从 KV Cache 里找语义变化

KVPO 的做法很有想象力:把探索的源头从随机噪声转移到历史 KV Cache

在自回归生成中,KV Cache 存储了所有历史 token 的 key-value 对,本质上就是模型的"记忆"。KVPO 通过对 KV Cache 中的历史条目进行随机路由,构造出语义上不同的生成分支——因为不同的历史记忆组合,自然会导致不同的故事走向和画面内容。

更妙的是,这种探索始终保持在数据流形(data manifold)上——生成的内容不会出现 OOD(out-of-distribution)的荒诞结果,因为所有的变化都来自模型已经学过的表征空间。

ODE-Native 的策略建模

解决了探索问题,KVPO 还重新设计了策略建模方式。

传统的 RL 策略在视频生成场景下是"外来户"——SDE-based 的 surrogate policy 与 ODE 的动态特性不匹配。KVPO 提出了基于 Trajectory Velocity Energy(TVE) 的速度场 surrogate policy:

  • 在 flow-matching 的速度空间里量化不同生成分支的"似然度"
  • 构建与 ODE 原生 formulation 完全一致的 reward-weighted 对比目标
  • 不需要任何 SDE 近似或 surrogate 转换

这种 ODE-native 的设计让 RL 信号与视频生成的数学基础天然对齐,避免了之前方法中的理论不一致问题。

实验结果

在多个蒸馏后的自回归视频生成器上测试:

  • 视觉质量提升:画面细节、色彩、构图都有改善
  • 运动质量提升:物体运动的连贯性和自然度更好
  • 图文一致性提升:生成内容与 prompt 的对齐度更高
  • 单 prompt 短视频和多 prompt 长视频都有收益

更深层的意义

KVPO 的技术路线暗示了一个趋势:视频生成的对齐方法需要专门为视频设计,不能简单套用文本模型的方法论。视频有时间维度、空间维度、语义叙事维度,每个维度都需要对应的探索策略和对齐目标。

这也意味着视频生成领域的 RL 对齐才刚刚开始。KVPO 提供了一个可行的起点,但离真正让人类满意的视频生成还有很长的路。

主要来源: