C
ChaoBro

OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM

OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM

Подход GRPO к токеновому кредитному распределению фундаментально груб: он присваивает одинаковое преимущество уровня траектории каждому токену в ответе.

OPPO (arXiv:2605.21851, Yu Li и др., 21 мая 2026) начинает с чистого наблюдения: сигнал оракула, используемый в методах on-policy дистилляции для локальной токеновой дискриминации, на самом деле является естественным байесовским обновлением убеждений модели о том, достигнет ли она в итоге успеха.

Ключевое понимание

Когда LLM генерирует цепочку рассуждений, каждый токен — по сути ставка на «двигаюсь ли я к правильному ответу?» OPPO накапливает доказательства вдоль траектории, поддерживая текущую оценку вероятности успеха в каждой позиции.

Математика работает аккуратно: накопление сигнала оракула даёт токеновое преимущество в закрытой форме, без обучённой сети ценности и без дополнительных rollout. Всего один дополнительный прямой проход.

Два эстиматора

OPPO предлагает две версии. Self-oracle повторно использует модель-студента — что восстанавливает on-policy дистилляцию как строгий частный случай. Teacher-oracle делегирует оценку более сильной замороженной модели, давая лучшую дискриминацию.

Результаты

На двух базовых LLM и семи бенчмарках по математике, науке и коду OPPO превосходит GRPO, DAPO и SDPO. Выигрыши монотонно растут с длиной ответа.

Основные источники:

  • arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21