GRPOのトークンレベル信用割り当てへのアプローチは根本的に鈍い:回答内のすべてのトークンに同じ軌道レベルのアドバンテージを割り当てる。貢献にかかわらず均等に分配される会社ボーナスのようなものだ。
OPPO(arXiv:2605.21851、Li Yu他、2026年5月21日)は明潔な観察から出発する:ローカルトークン判別のためにon-policy distillation手法で使用されるオラクル信号は、実際にはモデルが最終的に成功するかどうかに関する信念の自然なベイズ更新である。
コア洞察
LLMが推論チェーンを生成するとき、各トークンは本質的に「自分は正しい答えに向かっているか?」という賭けだ。以前のdistillation手法は各トークンを孤立して評価する。OPPOは軌道に沿って証拠を累積し、各位置で成功確率の実時間推定を維持する。
数学の導出はきれいだ:オラクル信号を累積すると、学習済みバリューネットワークも追加ロールアウトもなしに、閉形式でトークンレベルのアドバンテージが得られる。追加の前方传播1回だけで済む。
2つの推定器
OPPOは2つのバリエーションを提供する。self-oracleは学生モデル自体を再利用し、on-policy distillationを厳密な特殊ケースとして回復する。teacher-oracleはより強い固定モデルにスコアリングを委譲し、より良い判別を生み出す。
結果
2つのベースLLM、数学・科学・コード推論にわたる7つのベンチマークで、OPPOはGRPO、DAPO、SDPOを上回った。ゲインは回答の長さに対して単調に増加する——これは理にかなっている:推論チェーンが長いほど、重要なステップがどこにあるかを知ることの価値が高まる。
重要な理由
DelTAとOPPOは同日に登場し、どちらも異なる角度からトークンレベル信用割り当てに取り組んだ。どちらもバリューネットワークを訓練しない。どちらもGRPOの「トークン平等クレジット」仮定がパフォーマンスを置き去りにしていることを示している。
主要ソース:
- arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21