RLVR(Reinforcement Learning with Verifiable Rewards)已经是 LLM 后训练的标准做法了——对每个 prompt 采样一组回答,用组内相对优势信号更新策略。但大多数人只是在用,很少有人问:这些方法到底在几何上做了什么?
腾讯混元这篇论文回答了这个问题。
一个统一的几何视角
论文揭示了一个关键发现:现有的 group-based RLVR 方法——不管叫什么名字、公式怎么写——都共享同一个几何结构。每个方法都隐式地在 response simplex 上定义了一个 target distribution,然后通过一阶近似向它投影。
换句话说,大家都在做同一件事,只是没人把它说清楚。
基于这个洞察,作者提出了 LPO(Listwise Policy Optimization),直接把 target-projection 显式化:把 proximal RL 目标限制在 response simplex 上,然后通过 exact divergence minimization 来做策略投影。
两个关键性质
LPO 提供了单调改进保证——listwise 目标上的单调改进,配合有界的、zero-sum 的、self-correcting 的投影梯度。同时支持灵活选择 divergence,不同的 divergence 有不同的结构特性。
在多种推理任务和 LLM backbone 上,LPO 在 matched targets 条件下一致优于典型的 policy gradient 基线,同时内在地保持了优化稳定性和回答多样性。
为什么值得关注
RLVR 训练不稳定是老问题了。GRPO、REINFORCE++ 等方法虽然有效,但调参成本高、训练波动大。LPO 从几何角度重新统一了这些方法,给出了一个更稳定的替代方案。
如果你对 LLM 的 RL 训练有实操经验,这篇论文的理论框架应该能帮你看清现有方法的本质,同时提供一个更稳定的训练路径。
主要来源:
- arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026