腾讯混元新论文：把 RLVR 做成了"列表排序"问题，LLM 训练思路又变了

LLM 的训练方法正在经历一波密集迭代。

继 DPO（Direct Preference Optimization）和 RLVR（Reinforcement Learning with Verifiable Rewards）之后，腾讯混元团队在 Hugging Face Daily Papers 上发表了一篇新论文，提出了 Listwise Policy Optimization（LPO），57 upvotes。

这篇论文的核心贡献可以用一个数学表述概括：把 LLM 的强化学习策略优化，建模为在 LLM 响应单纯形（Response Simplex）上的目标投影问题。

听起来很学术，拆开来说其实有一个很清晰的直觉。

从 Pointwise 到 Listwise：为什么这很重要

现在的 LLM 强化学习训练，主流做法是 pointwise 的：

给模型一个 prompt
模型生成一个 response
根据 reward model 的评分更新策略

每次只处理一个 (prompt, response) 对。

但人类做判断的时候不是这样的。当你要评价两个答案哪个更好时，你不是分别给它们打分然后比较——你是把它们放在一起，直接比较。这就是 listwise 的思路。

腾讯混元的 LPO 正是抓住了这个区别。它不再单独优化每个 response，而是把同一 prompt 的多个 response 当作一组来处理，在这组 response 的概率分布（即"响应单纯形"）上做优化。

"响应单纯形"到底是什么

单纯形（Simplex）是数学里的一个概念。在一个单纯形上，所有点的坐标之和等于 1。

把它套到 LLM 上：对于一个给定的 prompt，模型可能生成很多不同的 response。每个 response 有一个概率。所有这些 response 的概率加起来等于 1——这就是"响应单纯形"。

LPO 的思路是：不直接优化单个 response 的概率，而是在整个单纯形上定义一个"目标分布"，然后让策略分布向目标分布"投影"。

这个视角的妙处在于：它天然支持 group-level 的优化。你可以在一组 response 之间建立相对关系（A 比 B 好，B 比 C 好），而不是只能做绝对评分（A 是 8 分，B 是 6 分）。

跟 DPO、RLVR 的关系

DPO 和 RLVR 各有优缺点：

DPO：不需要 reward model，直接用偏好对训练。但它假设偏好是独立的，忽略了 response 之间的全局关系
RLVR：用可验证的 reward 做强化学习，效果好但需要设计 reward 函数

LPO 试图融合两者的优点：

像 DPO 一样，不需要显式的 reward model（通过目标分布隐式编码偏好）
像 RLVR 一样，支持灵活的优化目标（通过改变目标分布的形状）

但 LPO 的计算复杂度更高。在单纯形上做投影比 pointwise 的梯度更新要复杂得多，特别是在 response 数量多的时候。

实际影响

如果 LPO 能证明在大规模训练上的有效性，它可能会成为 LLM 训练工具箱里的一个新选项。

特别是对于那些需要 fine-grained 偏好建模的场景——比如多轮对话、代码生成（多个正确但有优劣之分的方案）、创意写作——listwise 的方法可能比 pointwise 更自然。

但论文目前的验证规模还需要更大。LLM 训练领域的一个常见问题是：在小模型、小数据集上有效的方法，到了千亿参数、万亿 token 的尺度上不一定还有效。

一个趋势信号

从更大的视角看，LPO 代表了 LLM 训练方法的一个趋势：从"如何给单个输出打分"转向"如何在一组输出之间建立结构化的偏好关系"。

这个趋势在几个方向上都有体现：

DPO 用偏好对代替绝对评分
GroupRelative Policy Optimization（GRPO）用组内相对比较
现在 LPO 用单纯形投影做全局优化

如果这个趋势继续发展，未来 LLM 的训练可能会更像"排序学习"（Learning to Rank），而不是传统的强化学习。

主要来源：

Hugging Face Daily Papers - May 11, 2026
Tencent Hunyuan, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex"

从 Pointwise 到 Listwise：为什么这很重要

"响应单纯形"到底是什么

跟 DPO、RLVR 的关系

实际影响

一个趋势信号

Related

LLM 写组合优化代码时最大的坑：你让它优化，它反而变蠢了

Rubric 越细，模型越会钻空子：基于评分标准的强化学习中的奖励黑客

RLHF 正在悄悄毁掉 AI 的"诚实"：Semantic Reward Collapse 到底说了什么