C
ChaoBro

OPPO:贝叶斯价值递归如何实现 token 级信用分配

OPPO:贝叶斯价值递归如何实现 token 级信用分配

GRPO 给每个 token 分配同样的轨迹级优势——就像公司发奖金不看贡献,人人平分。写出关键推理的那一步和打逗号的那一步拿一样的 credit。

OPPO(arXiv:2605.21851,李宇等,2026年5月21日)从一个干净的观察出发:on-policy distillation 方法里用来做局部 token 判别的 oracle signal,本质上就是对模型"最终能不能成功"这一信念的贝叶斯更新。

核心思路

LLM 生成推理链时,每个 token 其实都在赌"我这步走对了吗"。之前的 distillation 方法孤立地评估每个 token——这个 token 和 oracle 的输出匹配吗?OPPO 的做法是沿着轨迹累积证据,在每一步维护一个成功概率的实时估计。

数学推导很干净:累积 oracle signal 能以闭式解给出 token 级优势,不需要训练价值网络,不需要额外的 rollout,只要一次额外的前向传播。

一阶分析把优势分解为两部分:一是 distillation 方法已经在用的 per-token 判别信号,二是把 credit 集中在真正关键 token 上的状态权重。方向性方差缩减保证随之而来。

两种估计器

OPPO 提供两个版本。self-oracle 复用学生模型本身——结果发现 on-policy distillation 是它的严格特例。teacher-oracle 把评分交给一个更强的冻结模型,通常判别效果更好。

效果

在两个基座模型、七个涵盖数学、科学和代码推理的基准上,OPPO 超过 GRPO、DAPO 和 SDPO。而且增益随着回答长度单调增加——这很合理:推理链越长,知道"关键步骤在哪"就越值钱。

和 DelTA 同台

DelTA 和 OPPO 同一天出来,都在解决 token 级信用分配,走了不同的路。DelTA 用判别器中心点,OPPO 用贝叶斯价值递归。都不训练价值网络。都说明 GRPO 的"token 平等"假设浪费了性能。

大的趋势是:RLVR 从"GRPO 能跑就行"进化到"搞清楚 GRPO 到底在干什么、哪里会出问题"。这才是一个技术变得靠谱的标志。

主要来源:

  • arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21