LPO от Tencent: объединение групповых стратегических градиентов RLVR в единую геометрическую框架

RLVR (Reinforcement Learning with Verifiable Rewards) уже стал стандартным подходом для пост-обучения LLM — сэмплирование группы ответов на промпт, обновление политики с помощью групповых относительных сигналов преимущества. Но большинство просто использует, мало кто спрашивает: что эти методы делают на геометрическом уровне?

Статья от Tencent Hunyuan отвечает на этот вопрос.

Единая геометрическая перспектива

Ключевое обнаружение статьи: существующие групповые методы RLVR — независимо от названия и формул — разделяют одну и ту же геометрическую структуру. Каждый метод неявно определяет целевое распределение на симплексе ответов и проецируется к нему через аппроксимацию первого порядка.

На основе этого понимания авторы предлагают LPO (Listwise Policy Optimization), который делает target-projection явным: ограничивает проксимальную RL-цель на симплексе ответов, затем проецирует политику через точную минимизацию дивергенции.

Два ключевых свойства

LPO обеспечивает монотонное улучшение на listwise-цели с ограниченными, zero-sum, self-correcting градиентами проекции. Поддерживает гибкий выбор дивергенции с различными структурными свойствами.

На разнообразных задачах рассуждения и LLM-бэкбонах LPO стабильно превосходит типичные baseline стратегии при совпадающих целевых распределениях, одновременно сохраняя стабильность оптимизации и разнообразие ответов.

Источники:

arXiv:2605.06139, "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex", Yun Qu et al. (Tencent Hunyuan), May 2026

Единая геометрическая перспектива

Два ключевых свойства

Похожие материалы

Aider на 44K звёзд: AI-парное программирование в терминале — работает ли на самом деле?

Cline на 60K звёзд: автономный агент для программирования переходит на SDK — стоит ли внимания?

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов