C
ChaoBro

Tencent Hunyuan の LPO:グループベース RLVR 戦略勾配を単一の幾何学フレームワークに統合

Tencent Hunyuan の LPO:グループベース RLVR 戦略勾配を単一の幾何学フレームワークに統合

RLVR(Reinforcement Learning with Verifiable Rewards)はすでに LLM 後訓練の標準アプローチになっている——プロンプトごとに一组の回答をサンプリングし、グループ相対のアドバンテージ信号でポリシーを更新する。しかし多くの人は使うだけで、これらの方法が幾何学的に何をしているかを問う人は少ない。

Tencent Hunyuan の論文がこの問いに答える。

統一された幾何学的視点

論文の重要な発見:既存のグループベース RLVR 方法——名前や数式に関わらず——同じ幾何構造を共有している。各方法は暗黙的に response simplex 上に target distribution を定義し、一次近似でそれに投影している。

つまり、みんな同じことをやっているのに、誰も明確にしてこなかった。

この洞察に基づき、著者は LPO(Listwise Policy Optimization)を提案——target-projection を明示化し、proximal RL 目標を response simplex に制限し、exact divergence minimization でポリシー投影を行う。

二つの重要な性質

LPO は listwise 目標上で単調改善を保証——有界、zero-sum、self-correcting な投影勾配を伴う。divergence の柔軟な選択もサポートし、異なる divergence が異なる構造特性を持つ。

多様な推論タスクと LLM バックボーンで、LPO は matched targets 条件下で一貫して典型的なポリシー勾配ベースラインを上回り、同時に最適化安定性と回答多様性を本質的に保持。

コードとベンチマークはオープンソース。

主要ソース:

  • arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026