C
ChaoBro

腾讯混元的 LPO:把 RLVR 的 group-based 策略梯度统一到一个几何框架里

腾讯混元的 LPO:把 RLVR 的 group-based 策略梯度统一到一个几何框架里

RLVR(Reinforcement Learning with Verifiable Rewards)已经是 LLM 后训练的标准做法了——对每个 prompt 采样一组回答,用组内相对优势信号更新策略。但大多数人只是在用,很少有人问:这些方法到底在几何上做了什么?

腾讯混元这篇论文回答了这个问题。

一个统一的几何视角

论文揭示了一个关键发现:现有的 group-based RLVR 方法——不管叫什么名字、公式怎么写——都共享同一个几何结构。每个方法都隐式地在 response simplex 上定义了一个 target distribution,然后通过一阶近似向它投影。

换句话说,大家都在做同一件事,只是没人把它说清楚。

基于这个洞察,作者提出了 LPO(Listwise Policy Optimization),直接把 target-projection 显式化:把 proximal RL 目标限制在 response simplex 上,然后通过 exact divergence minimization 来做策略投影。

两个关键性质

LPO 提供了单调改进保证——listwise 目标上的单调改进,配合有界的、zero-sum 的、self-correcting 的投影梯度。同时支持灵活选择 divergence,不同的 divergence 有不同的结构特性。

在多种推理任务和 LLM backbone 上,LPO 在 matched targets 条件下一致优于典型的 policy gradient 基线,同时内在地保持了优化稳定性和回答多样性。

为什么值得关注

RLVR 训练不稳定是老问题了。GRPO、REINFORCE++ 等方法虽然有效,但调参成本高、训练波动大。LPO 从几何角度重新统一了这些方法,给出了一个更稳定的替代方案。

如果你对 LLM 的 RL 训练有实操经验,这篇论文的理论框架应该能帮你看清现有方法的本质,同时提供一个更稳定的训练路径。

主要来源:

  • arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026