Подход GRPO к токеновому кредитному распределению фундаментально груб: он присваивает одинаковое преимущество уровня траектории каждому токену в ответе.
OPPO (arXiv:2605.21851, Yu Li и др., 21 мая 2026) начинает с чистого наблюдения: сигнал оракула, используемый в методах on-policy дистилляции для локальной токеновой дискриминации, на самом деле является естественным байесовским обновлением убеждений модели о том, достигнет ли она в итоге успеха.
Ключевое понимание
Когда LLM генерирует цепочку рассуждений, каждый токен — по сути ставка на «двигаюсь ли я к правильному ответу?» OPPO накапливает доказательства вдоль траектории, поддерживая текущую оценку вероятности успеха в каждой позиции.
Математика работает аккуратно: накопление сигнала оракула даёт токеновое преимущество в закрытой форме, без обучённой сети ценности и без дополнительных rollout. Всего один дополнительный прямой проход.
Два эстиматора
OPPO предлагает две версии. Self-oracle повторно использует модель-студента — что восстанавливает on-policy дистилляцию как строгий частный случай. Teacher-oracle делегирует оценку более сильной замороженной модели, давая лучшую дискриминацию.
Результаты
На двух базовых LLM и семи бенчмарках по математике, науке и коду OPPO превосходит GRPO, DAPO и SDPO. Выигрыши монотонно растут с длиной ответа.
Основные источники:
- arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21