RLVRにおけるトークンレベル信用割り当ての再考：DelTAが識別器視点で挑む

GRPOは軌道レベルの報酬をすべてのトークンに均等に分配する——個人の貢献にかかわらずチームボーナスを均等に分けるようなものだ。重要な洞察を書くトークンも、ピリオドを打つトークンも同じクレジットを得る。

DelTA（arXiv:2605.21467、Zhang Kaiyi他、中国人民大学/智源研究院、2026年5月20日）は、RLVRのポリシー勾配更新方向を線形識別器として再解釈するという、振り返ればシンプルだが本質的なことをやっている。

識別器視点

RLVR訓練中、モデルは同じ問題に対して複数の回答を生成する——高スコアのものもあれば低スコアのものもある。標準的なアプローチは、アドバンテージで重み付けされたすべてのトークン勾配を平均化し、「正のcentroid」と「負のcentroid」を計算し、更新方向をこれらを引き離すベクトルとする。

問題は、これらのcentroidが高頻度の共有トークン（フォーマット文字、一般的な接続詞）に支配されてしまうこと。良い推論と悪い推論を実際に区別できる少数のトークン——それらはかき消されてしまう。

DelTAは各トークンの「判別係数」を推定する：ポジティブとネガティブの回答を区別できるトークンには高い重みを、共有または判別力の弱いトークンには低い重みを与える。本質的に信号対雑音比を向上させている。

Qwen3-8B-Baseでは、DelTAは7つの数学ベンチマークで最強の同規模ベースラインを平均3.26点上回った。Qwen3-14B-Baseでは2.62点。コード生成タスクとドメイン外評価でも汎化性が確認された。

正直に言うと、現在の数学推論ベンチマークでの2-3点の向上は「圧倒的」とは言えない——しかし、この論文の意義はスコアそのものにあるのではない。RLVR訓練メカニズムを理解するための新しいフレームワークを提供している：ポリシー勾配は暗黙的に判別を行っているということだ。

興味深いことに、同じ問題に取り組む別の論文OPPO（arXiv:2605.21851）が同日に登場した。OPPOはオラクル信号を用いたベイズアプローチ、DelTAは識別器アプローチ。どちらも訓練されたバリューネットワークを必要としない。

このトレンドは注目すべきだ：フィールドが「GRPOは動くから次に進もう」から「なぜ動くのか、どこで失敗するのか」を問い始めるとき、RLVR研究はより深い段階に入る。

主要ソース：

arXiv:2605.21467, DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards, Kaiyi Zhang et al., 2026-05-20