Tencent Hunyuan の LPO：グループベース RLVR 戦略勾配を単一の幾何学フレームワークに統合

RLVR（Reinforcement Learning with Verifiable Rewards）はすでに LLM 後訓練の標準アプローチになっている——プロンプトごとに一组の回答をサンプリングし、グループ相対のアドバンテージ信号でポリシーを更新する。しかし多くの人は使うだけで、これらの方法が幾何学的に何をしているかを問う人は少ない。

Tencent Hunyuan の論文がこの問いに答える。

統一された幾何学的視点

論文の重要な発見：既存のグループベース RLVR 方法——名前や数式に関わらず——同じ幾何構造を共有している。各方法は暗黙的に response simplex 上に target distribution を定義し、一次近似でそれに投影している。

つまり、みんな同じことをやっているのに、誰も明確にしてこなかった。

この洞察に基づき、著者は LPO（Listwise Policy Optimization）を提案——target-projection を明示化し、proximal RL 目標を response simplex に制限し、exact divergence minimization でポリシー投影を行う。

二つの重要な性質

LPO は listwise 目標上で単調改善を保証——有界、zero-sum、self-correcting な投影勾配を伴う。divergence の柔軟な選択もサポートし、異なる divergence が異なる構造特性を持つ。

多様な推論タスクと LLM バックボーンで、LPO は matched targets 条件下で一貫して典型的なポリシー勾配ベースラインを上回り、同時に最適化安定性と回答多様性を本質的に保持。

コードとベンチマークはオープンソース。

主要ソース：

arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026

統一された幾何学的視点

二つの重要な性質

関連コンテンツ

ACC：エージェント軌道を長文脈QAにコンパイルし、直接推論を訓練

RLVRにおけるトークンレベル信用割り当ての再考：DelTAが識別器視点で挑む

MLLMは人を正確に読めるか？MM-OCEANが明らかにする「正解の51%は推測」