OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM

Подход GRPO к токеновому кредитному распределению фундаментально груб: он присваивает одинаковое преимущество уровня траектории каждому токену в ответе.

OPPO (arXiv:2605.21851, Yu Li и др., 21 мая 2026) начинает с чистого наблюдения: сигнал оракула, используемый в методах on-policy дистилляции для локальной токеновой дискриминации, на самом деле является естественным байесовским обновлением убеждений модели о том, достигнет ли она в итоге успеха.

Ключевое понимание

Когда LLM генерирует цепочку рассуждений, каждый токен — по сути ставка на «двигаюсь ли я к правильному ответу?» OPPO накапливает доказательства вдоль траектории, поддерживая текущую оценку вероятности успеха в каждой позиции.

Математика работает аккуратно: накопление сигнала оракула даёт токеновое преимущество в закрытой форме, без обучённой сети ценности и без дополнительных rollout. Всего один дополнительный прямой проход.

Два эстиматора

OPPO предлагает две версии. Self-oracle повторно использует модель-студента — что восстанавливает on-policy дистилляцию как строгий частный случай. Teacher-oracle делегирует оценку более сильной замороженной модели, давая лучшую дискриминацию.

Результаты

На двух базовых LLM и семи бенчмарках по математике, науке и коду OPPO превосходит GRPO, DAPO и SDPO. Выигрыши монотонно растут с длиной ответа.

Основные источники:

arXiv:2605.21851, OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning, Yu Li et al., 2026-05-21

Ключевое понимание

Два эстиматора

Результаты

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание