清华 KVPO：把 GRPO 搬进视频生成，用 KV Cache 做语义探索，让 AI 生成的视频更懂人类审美

视频生成模型的强化学习对齐，之前一直是个技术难题。

文本模型用 RLHF/GRPO 对齐人类偏好已经很成熟了——给模型生成几个回答，让人类偏好模型打分，然后用奖励信号优化。但视频生成不一样：生成一帧视频的计算成本是生成一个 token 的几万倍，你不可能像对待文本那样大量采样、大量评估。

而且视频生成的数学模型也完全不同。主流的自回归视频生成器是基于 ODE（常微分方程）的流匹配（flow matching）架构，而现有的 RL 方法大多基于 SDE（随机微分方程）和噪声探索，两者根本不兼容。

清华的 KVPO 就是来拆这个炸弹的。

问题出在哪

自回归视频生成的过程可以理解为：从第一帧开始，逐帧生成，每一步都依赖前面所有帧的信息。现有的 RL 方法在做策略优化时，通过加噪声来"探索"不同的生成路径。

但问题来了：噪声扰动改变的是像素级别的细节——颜色深浅、纹理粗细——而不是语义级别的内容——故事走向、物体运动轨迹。你想让模型学会"生成更有故事性的视频"，但它探索到的只是"这个像素更亮一点"。

这就好比你让一个人学写作，却只允许他改标点符号。

KVPO 的做法很有想象力：把探索的源头从随机噪声转移到历史 KV Cache。

在自回归生成中，KV Cache 存储了所有历史 token 的 key-value 对，本质上就是模型的"记忆"。KVPO 通过对 KV Cache 中的历史条目进行随机路由，构造出语义上不同的生成分支——因为不同的历史记忆组合，自然会导致不同的故事走向和画面内容。

更妙的是，这种探索始终保持在数据流形（data manifold）上——生成的内容不会出现 OOD（out-of-distribution）的荒诞结果，因为所有的变化都来自模型已经学过的表征空间。

解决了探索问题，KVPO 还重新设计了策略建模方式。

传统的 RL 策略在视频生成场景下是"外来户"——SDE-based 的 surrogate policy 与 ODE 的动态特性不匹配。KVPO 提出了基于 Trajectory Velocity Energy（TVE） 的速度场 surrogate policy：

这种 ODE-native 的设计让 RL 信号与视频生成的数学基础天然对齐，避免了之前方法中的理论不一致问题。

在多个蒸馏后的自回归视频生成器上测试：

KVPO 的技术路线暗示了一个趋势：视频生成的对齐方法需要专门为视频设计，不能简单套用文本模型的方法论。视频有时间维度、空间维度、语义叙事维度，每个维度都需要对应的探索策略和对齐目标。

这也意味着视频生成领域的 RL 对齐才刚刚开始。KVPO 提供了一个可行的起点，但离真正让人类满意的视频生成还有很长的路。

主要来源：