C
ChaoBro

腾讯混元新论文:把 RLVR 做成了"列表排序"问题,LLM 训练思路又变了

腾讯混元新论文:把 RLVR 做成了"列表排序"问题,LLM 训练思路又变了

LLM 的训练方法正在经历一波密集迭代。

继 DPO(Direct Preference Optimization)和 RLVR(Reinforcement Learning with Verifiable Rewards)之后,腾讯混元团队在 Hugging Face Daily Papers 上发表了一篇新论文,提出了 Listwise Policy Optimization(LPO),57 upvotes。

这篇论文的核心贡献可以用一个数学表述概括:把 LLM 的强化学习策略优化,建模为在 LLM 响应单纯形(Response Simplex)上的目标投影问题。

听起来很学术,拆开来说其实有一个很清晰的直觉。

从 Pointwise 到 Listwise:为什么这很重要

现在的 LLM 强化学习训练,主流做法是 pointwise 的:

  • 给模型一个 prompt
  • 模型生成一个 response
  • 根据 reward model 的评分更新策略

每次只处理一个 (prompt, response) 对。

但人类做判断的时候不是这样的。当你要评价两个答案哪个更好时,你不是分别给它们打分然后比较——你是把它们放在一起,直接比较。这就是 listwise 的思路。

腾讯混元的 LPO 正是抓住了这个区别。它不再单独优化每个 response,而是把同一 prompt 的多个 response 当作一组来处理,在这组 response 的概率分布(即"响应单纯形")上做优化。

"响应单纯形"到底是什么

单纯形(Simplex)是数学里的一个概念。在一个单纯形上,所有点的坐标之和等于 1。

把它套到 LLM 上:对于一个给定的 prompt,模型可能生成很多不同的 response。每个 response 有一个概率。所有这些 response 的概率加起来等于 1——这就是"响应单纯形"。

LPO 的思路是:不直接优化单个 response 的概率,而是在整个单纯形上定义一个"目标分布",然后让策略分布向目标分布"投影"。

这个视角的妙处在于:它天然支持 group-level 的优化。你可以在一组 response 之间建立相对关系(A 比 B 好,B 比 C 好),而不是只能做绝对评分(A 是 8 分,B 是 6 分)。

跟 DPO、RLVR 的关系

DPO 和 RLVR 各有优缺点:

  • DPO:不需要 reward model,直接用偏好对训练。但它假设偏好是独立的,忽略了 response 之间的全局关系
  • RLVR:用可验证的 reward 做强化学习,效果好但需要设计 reward 函数

LPO 试图融合两者的优点:

  • 像 DPO 一样,不需要显式的 reward model(通过目标分布隐式编码偏好)
  • 像 RLVR 一样,支持灵活的优化目标(通过改变目标分布的形状)

但 LPO 的计算复杂度更高。在单纯形上做投影比 pointwise 的梯度更新要复杂得多,特别是在 response 数量多的时候。

实际影响

如果 LPO 能证明在大规模训练上的有效性,它可能会成为 LLM 训练工具箱里的一个新选项。

特别是对于那些需要 fine-grained 偏好建模的场景——比如多轮对话、代码生成(多个正确但有优劣之分的方案)、创意写作——listwise 的方法可能比 pointwise 更自然。

但论文目前的验证规模还需要更大。LLM 训练领域的一个常见问题是:在小模型、小数据集上有效的方法,到了千亿参数、万亿 token 的尺度上不一定还有效。

一个趋势信号

从更大的视角看,LPO 代表了 LLM 训练方法的一个趋势:从"如何给单个输出打分"转向"如何在一组输出之间建立结构化的偏好关系"。

这个趋势在几个方向上都有体现:

  • DPO 用偏好对代替绝对评分
  • GroupRelative Policy Optimization(GRPO)用组内相对比较
  • 现在 LPO 用单纯形投影做全局优化

如果这个趋势继续发展,未来 LLM 的训练可能会更像"排序学习"(Learning to Rank),而不是传统的强化学习。

主要来源: