C
ChaoBro

LPO от Tencent: объединение групповых стратегических градиентов RLVR в единую геометрическую框架

LPO от Tencent: объединение групповых стратегических градиентов RLVR в единую геометрическую框架

RLVR (Reinforcement Learning with Verifiable Rewards) уже стал стандартным подходом для пост-обучения LLM — сэмплирование группы ответов на промпт, обновление политики с помощью групповых относительных сигналов преимущества. Но большинство просто использует, мало кто спрашивает: что эти методы делают на геометрическом уровне?

Статья от Tencent Hunyuan отвечает на этот вопрос.

Единая геометрическая перспектива

Ключевое обнаружение статьи: существующие групповые методы RLVR — независимо от названия и формул — разделяют одну и ту же геометрическую структуру. Каждый метод неявно определяет целевое распределение на симплексе ответов и проецируется к нему через аппроксимацию первого порядка.

На основе этого понимания авторы предлагают LPO (Listwise Policy Optimization), который делает target-projection явным: ограничивает проксимальную RL-цель на симплексе ответов, затем проецирует политику через точную минимизацию дивергенции.

Два ключевых свойства

LPO обеспечивает монотонное улучшение на listwise-цели с ограниченными, zero-sum, self-correcting градиентами проекции. Поддерживает гибкий выбор дивергенции с различными структурными свойствами.

На разнообразных задачах рассуждения и LLM-бэкбонах LPO стабильно превосходит типичные baseline стратегии при совпадающих целевых распределениях, одновременно сохраняя стабильность оптимизации и разнообразие ответов.

Источники:

  • arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026