RLVR (Reinforcement Learning with Verifiable Rewards) уже стал стандартным подходом для пост-обучения LLM — сэмплирование группы ответов на промпт, обновление политики с помощью групповых относительных сигналов преимущества. Но большинство просто использует, мало кто спрашивает: что эти методы делают на геометрическом уровне?
Статья от Tencent Hunyuan отвечает на этот вопрос.
Единая геометрическая перспектива
Ключевое обнаружение статьи: существующие групповые методы RLVR — независимо от названия и формул — разделяют одну и ту же геометрическую структуру. Каждый метод неявно определяет целевое распределение на симплексе ответов и проецируется к нему через аппроксимацию первого порядка.
На основе этого понимания авторы предлагают LPO (Listwise Policy Optimization), который делает target-projection явным: ограничивает проксимальную RL-цель на симплексе ответов, затем проецирует политику через точную минимизацию дивергенции.
Два ключевых свойства
LPO обеспечивает монотонное улучшение на listwise-цели с ограниченными, zero-sum, self-correcting градиентами проекции. Поддерживает гибкий выбор дивергенции с различными структурными свойствами.
На разнообразных задачах рассуждения и LLM-бэкбонах LPO стабильно превосходит типичные baseline стратегии при совпадающих целевых распределениях, одновременно сохраняя стабильность оптимизации и разнообразие ответов.
Источники:
- arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026