OPPO：贝叶斯价值递归如何实现 token 级信用分配

GRPO 给每个 token 分配同样的轨迹级优势——就像公司发奖金不看贡献，人人平分。写出关键推理的那一步和打逗号的那一步拿一样的 credit。

OPPO（arXiv:2605.21851，李宇等，2026年5月21日）从一个干净的观察出发：on-policy distillation 方法里用来做局部 token 判别的 oracle signal，本质上就是对模型"最终能不能成功"这一信念的贝叶斯更新。

核心思路

LLM 生成推理链时，每个 token 其实都在赌"我这步走对了吗"。之前的 distillation 方法孤立地评估每个 token——这个 token 和 oracle 的输出匹配吗？OPPO 的做法是沿着轨迹累积证据，在每一步维护一个成功概率的实时估计。

数学推导很干净：累积 oracle signal 能以闭式解给出 token 级优势，不需要训练价值网络，不需要额外的 rollout，只要一次额外的前向传播。

一阶分析把优势分解为两部分：一是 distillation 方法已经在用的 per-token 判别信号，二是把 credit 集中在真正关键 token 上的状态权重。方向性方差缩减保证随之而来。

OPPO 提供两个版本。self-oracle 复用学生模型本身——结果发现 on-policy distillation 是它的严格特例。teacher-oracle 把评分交给一个更强的冻结模型，通常判别效果更好。

在两个基座模型、七个涵盖数学、科学和代码推理的基准上，OPPO 超过 GRPO、DAPO 和 SDPO。而且增益随着回答长度单调增加——这很合理：推理链越长，知道"关键步骤在哪"就越值钱。

DelTA 和 OPPO 同一天出来，都在解决 token 级信用分配，走了不同的路。DelTA 用判别器中心点，OPPO 用贝叶斯价值递归。都不训练价值网络。都说明 GRPO 的"token 平等"假设浪费了性能。

大的趋势是：RLVR 从"GRPO 能跑就行"进化到"搞清楚 GRPO 到底在干什么、哪里会出问题"。这才是一个技术变得靠谱的标志。

主要来源：

arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21