清華大学 KVPO：動画生成に GRPO を導入、KV Cache による意味探索で AI 生成動画を人間の審美に適合させる

動画生成モデルにおける強化学習ベースのアライメントは、これまで長らく技術的な難題とされてきました。

テキストモデルでは、RLHF や GRPO を用いた人間の嗜好へのアライメントはすでに成熟しています。モデルに複数の回答を生成させ、人間の嗜好モデルでスコアリングし、報酬シグナルで最適化する手法です。しかし動画生成は事情が異なります：動画1フレームを生成する計算コストは、トークン1つを生成するコストの数万倍に達するため、テキストのように大量のサンプリングや評価を行うことは現実的ではありません。

さらに、動画生成の数学モデルも根本的に異なります。主流の自己回帰型動画生成器は、ODE（常微分方程式）に基づくフローマッチング（flow matching）アーキテクチャを採用していますが、既存の強化学習手法の多くは SDE（確率微分方程式）とノイズ探索に基づいており、両者は本質的に互換性がありません。

清華大学の KVPO は、まさにこの難題を解決するために登場しました。

問題の所在

自己回帰型動画生成のプロセスは、最初のフレームから始まり、フレームごとに逐次生成され、各ステップがそれまでの全フレームの情報に依存するものと理解できます。既存の強化学習手法は、ポリシー最適化を行う際、ノイズを付加することで異なる生成パスを「探索」します。

しかしここで問題が生じます。ノイズ摂動が変化させるのはピクセルレベルの細部（色の濃淡、テクスチャの粗さなど）であり、意味レベルの内容（物語の展開、物体の運動軌跡など）ではありません。モデルに「より物語性のある動画を生成する」ことを学ばせたいのに、モデルが探索しているのは「このピクセルをもう少し明るくする」といったレベルに留まってしまうのです。

これは、人に文章の書き方を学ばせながら、句読点の変更しか許さないようなものです。

KVPO の核心的な革新：KV Cache から意味的変化を探索する

KVPO のアプローチは非常に独創的です。探索の起点をランダムノイズから履歴 KV Cache へ移行させたのです。

自己回帰型生成において、KV Cache はすべての履歴トークンのキー・バリューペアを格納しており、本質的にはモデルの「記憶」に相当します。KVPO は、KV Cache 内の履歴エントリに対してランダムルーティングを適用することで、意味的に異なる生成ブランチを構築します。異なる記憶の組み合わせが、自然と異なる物語の展開や画面内容を生み出すためです。

さらに優れているのは、この探索が常にデータ多様体（data manifold）上に留まることです。すべての変化がモデルがすでに学習した表現空間に由来するため、生成内容が OOD（out-of-distribution / 分布外）の荒唐無稽な結果になることはありません。

ODE-Native なポリシーモデリング

探索の問題を解決した上で、KVPO はポリシーモデリングの方式も再設計しました。

従来の強化学習ポリシーは動画生成の文脈では「異物」でした。SDE ベースのサロゲートポリシーは、ODE の動的性質と適合しなかったのです。KVPO は、**Trajectory Velocity Energy（TVE）**に基づく速度場サロゲートポリシーを提案しました：

フローマッチングの速度空間において、異なる生成ブランチの「尤度」を定量化
ODE のネイティブな定式化と完全に一致する、報酬重み付き対比目標の構築
SDE 近似やサロゲート変換を一切不要に

この ODE-Native な設計により、強化学習シグナルと動画生成の数学的基盤が自然に整合し、従来手法で問題となっていた理論的不整合を回避しています。

実験結果

複数の蒸留済み自己回帰型動画生成器でテストを行った結果：

視覚品質の向上：画面の細部、色彩、構図がすべて改善
動作品質の向上：物体の動きの連続性と自然さが向上
テキスト画像一貫性の向上：生成内容とプロンプトとの整合性がさらに高まる
単一プロンプトの短尺動画および複数プロンプトの長尺動画の両方で効果を確認

より深い意義

KVPO の技術ロードマップは一つの傾向を示唆しています：動画生成のアライメント手法は動画専用に設計される必要があり、テキストモデルの方法論を単純に流用することはできません。動画には時間次元、空間次元、意味的ナラティブ次元があり、各次元に対応した探索戦略とアライメント目標が求められます。

これは、動画生成分野における強化学習ベースのアライメントがまだ始まったばかりであることを意味します。KVPO は実行可能な出発点を提供しましたが、真に人間を満足させる動画生成の実現には、まだ長い道のりが残されています。

主な情報源：

KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
https://richard-zhang-ai.github.io/KVPO-Project/
https://github.com/Richard-Zhang-AI/KVPO

問題の所在

KVPO の核心的な革新：KV Cache から意味的変化を探索する

ODE-Native なポリシーモデリング

実験結果

より深い意義

関連コンテンツ

APWA：マルチエージェントシステムを真に並列化する分散アーキテクチャ

Dual-Dimensional Consistency：推論時スケーリングでトークン消費を10倍削減する新手法

MemEye：マルチモーダルエージェントの記憶能力を評価する視覚中心型フレームワーク