腾讯混元的 LPO：把 RLVR 的 group-based 策略梯度统一到一个几何框架里

RLVR（Reinforcement Learning with Verifiable Rewards）已经是 LLM 后训练的标准做法了——对每个 prompt 采样一组回答，用组内相对优势信号更新策略。但大多数人只是在用，很少有人问：这些方法到底在几何上做了什么？

腾讯混元这篇论文回答了这个问题。

一个统一的几何视角

论文揭示了一个关键发现：现有的 group-based RLVR 方法——不管叫什么名字、公式怎么写——都共享同一个几何结构。每个方法都隐式地在 response simplex 上定义了一个 target distribution，然后通过一阶近似向它投影。

换句话说，大家都在做同一件事，只是没人把它说清楚。

基于这个洞察，作者提出了 LPO（Listwise Policy Optimization），直接把 target-projection 显式化：把 proximal RL 目标限制在 response simplex 上，然后通过 exact divergence minimization 来做策略投影。

两个关键性质

LPO 提供了单调改进保证——listwise 目标上的单调改进，配合有界的、zero-sum 的、self-correcting 的投影梯度。同时支持灵活选择 divergence，不同的 divergence 有不同的结构特性。

在多种推理任务和 LLM backbone 上，LPO 在 matched targets 条件下一致优于典型的 policy gradient 基线，同时内在地保持了优化稳定性和回答多样性。

为什么值得关注

RLVR 训练不稳定是老问题了。GRPO、REINFORCE++ 等方法虽然有效，但调参成本高、训练波动大。LPO 从几何角度重新统一了这些方法，给出了一个更稳定的替代方案。

如果你对 LLM 的 RL 训练有实操经验，这篇论文的理论框架应该能帮你看清现有方法的本质，同时提供一个更稳定的训练路径。

主要来源：

arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026

一个统一的几何视角

两个关键性质

为什么值得关注

Related

Aider 44K 星：终端里的 AI 结对编程，到底好不好用？

Cline：6 万星的自主编程 Agent，SDK 化之后到底能不能打？

Codegraph：给 Claude Code 建一个本地知识图谱，token 和工具调用双双减少