RLVR(Reinforcement Learning with Verifiable Rewards)はすでに LLM 後訓練の標準アプローチになっている——プロンプトごとに一组の回答をサンプリングし、グループ相対のアドバンテージ信号でポリシーを更新する。しかし多くの人は使うだけで、これらの方法が幾何学的に何をしているかを問う人は少ない。
Tencent Hunyuan の論文がこの問いに答える。
統一された幾何学的視点
論文の重要な発見:既存のグループベース RLVR 方法——名前や数式に関わらず——同じ幾何構造を共有している。各方法は暗黙的に response simplex 上に target distribution を定義し、一次近似でそれに投影している。
つまり、みんな同じことをやっているのに、誰も明確にしてこなかった。
この洞察に基づき、著者は LPO(Listwise Policy Optimization)を提案——target-projection を明示化し、proximal RL 目標を response simplex に制限し、exact divergence minimization でポリシー投影を行う。
二つの重要な性質
LPO は listwise 目標上で単調改善を保証——有界、zero-sum、self-correcting な投影勾配を伴う。divergence の柔軟な選択もサポートし、異なる divergence が異なる構造特性を持つ。
多様な推論タスクと LLM バックボーンで、LPO は matched targets 条件下で一貫して典型的なポリシー勾配ベースラインを上回り、同時に最適化安定性と回答多様性を本質的に保持。
コードとベンチマークはオープンソース。
主要ソース:
- arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026