GRPO 把整条回答的奖励平均摊给每个 token——就像老板说"你们部门拿了优秀,奖金平分"。干得多的没多拿,划水的也没少拿。这套方法能 work,但直觉上就不太对劲。
DelTA 这篇论文(arXiv:2605.21467,张恺一等,人大/智源团队)做了一件看起来简单但想通了很厉害的事:把 RLVR 的 policy gradient 更新方向重新理解为一个线性判别器。
判别器视角
RLVR 训练时,模型对同一个问题会生成多条回答——有的得分高,有的得分低。标准做法是把所有 token 的梯度按优势函数加权平均,算出一个"正样本中心"和一个"负样本中心",然后更新方向就是拉开这两个中心。
问题在于,这些中心会被高频共享 token(比如格式化符号、常见连接词)主导。真正能区分好坏回答的,往往是几个关键推理步骤上的少数 token——但它们被淹没了。
DelTA 的做法是估计每个 token 的"判别系数":能区分正负样本的 token 给更高的权重,共享的、弱判别力的 token 降低权重。本质上是让信噪比变高。
效果如何
在 Qwen3-8B-Base 上,7 个数学基准平均比最强同规模基线高 3.26 分。在 Qwen3-14B-Base 上高 2.62 分。代码生成任务和域外评估也验证了泛化性。
说实话,2-3 分的提升在当前数学推理 benchmark 里不算"碾压级"——但方法的意义不在分数本身。它提供了一个理解 RLVR 训练机制的新框架:原来 policy gradient 隐式地在做判别。
和 OPPO 的同台竞技
有趣的是,同一天(5月20-21日)还有另一篇论文 OPPO(arXiv:2605.21851)也在解决同一个问题——token 级信用分配。OPPO 走的是贝叶斯路线,用 oracle signal 做信念更新;DelTA 走的是判别器路线,放大对比性梯度方向。两条路都绕开了训练价值网络的需要。
这个趋势值得跟:当大家不再满足于"GRPO 能跑就行",开始追问"为什么能跑、哪里能改进"的时候,RLVR 的研究才算真正进入深水区。
我这边没有条件复现 DelTA 的全套实验,但从方法描述来看,实现门槛不算高——核心就是一个自归一化的 token 系数估计,不需要额外的 rollout 或价值网络。如果你正在做 RLVR 训练,这篇值得读原文。
主要来源:
- arXiv:2605.21467, DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards, Kaiyi Zhang et al., 2026-05-20