RLVR 的信用分配难题：DelTA 用「判别器视角」重新审视 token 级奖励

GRPO 把整条回答的奖励平均摊给每个 token——就像老板说"你们部门拿了优秀，奖金平分"。干得多的没多拿，划水的也没少拿。这套方法能 work，但直觉上就不太对劲。

DelTA 这篇论文（arXiv:2605.21467，张恺一等，人大/智源团队）做了一件看起来简单但想通了很厉害的事：把 RLVR 的 policy gradient 更新方向重新理解为一个线性判别器。

判别器视角

RLVR 训练时，模型对同一个问题会生成多条回答——有的得分高，有的得分低。标准做法是把所有 token 的梯度按优势函数加权平均，算出一个"正样本中心"和一个"负样本中心"，然后更新方向就是拉开这两个中心。

问题在于，这些中心会被高频共享 token（比如格式化符号、常见连接词）主导。真正能区分好坏回答的，往往是几个关键推理步骤上的少数 token——但它们被淹没了。

DelTA 的做法是估计每个 token 的"判别系数"：能区分正负样本的 token 给更高的权重，共享的、弱判别力的 token 降低权重。本质上是让信噪比变高。

在 Qwen3-8B-Base 上，7 个数学基准平均比最强同规模基线高 3.26 分。在 Qwen3-14B-Base 上高 2.62 分。代码生成任务和域外评估也验证了泛化性。

说实话，2-3 分的提升在当前数学推理 benchmark 里不算"碾压级"——但方法的意义不在分数本身。它提供了一个理解 RLVR 训练机制的新框架：原来 policy gradient 隐式地在做判别。

有趣的是，同一天（5月20-21日）还有另一篇论文 OPPO（arXiv:2605.21851）也在解决同一个问题——token 级信用分配。OPPO 走的是贝叶斯路线，用 oracle signal 做信念更新；DelTA 走的是判别器路线，放大对比性梯度方向。两条路都绕开了训练价值网络的需要。

这个趋势值得跟：当大家不再满足于"GRPO 能跑就行"，开始追问"为什么能跑、哪里能改进"的时候，RLVR 的研究才算真正进入深水区。

我这边没有条件复现 DelTA 的全套实验，但从方法描述来看，实现门槛不算高——核心就是一个自归一化的 token 系数估计，不需要额外的 rollout 或价值网络。如果你正在做 RLVR 训练，这篇值得读原文。

主要来源：

arXiv:2605.21467, DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards, Kaiyi Zhang et al., 2026-05-20