Команда ИИ Xiaohongshu опубликовала научную статью по методам обучения с подкреплением: многомодальные поисковые агенты работают параллельно и при этом экономят вычислительные ресурсы

Команда ИИ Xiaohongshu опубликовала в ежедневной подборке научных статей Hugging Face статью «HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents». Статья получила 57 голосов «за».

Название статьи звучит громоздко, однако его можно разложить на три ключевых компонента:

Parallel Multimodal Search — параллельный многомодальный поиск: одновременное использование текста, изображений, видео и других модальностей для выполнения поискового запроса;
Dual-Grained — двухуровневый подход: оптимизация осуществляется на двух различных масштабах;
Efficiency-Aware RL — обучение с подкреплением с учётом эффективности: агенты стремятся не только к высокому качеству результатов, но и к минимизации вычислительных затрат.

Почему Xiaohongshu решила решить эту задачу

Рассмотрим типичный сценарий использования платформы Xiaohongshu. Пользователь вводит запрос вроде «Как обстоят дела в этом ресторане?». Результаты поиска включают не только текстовые отзывы, но и фотографии, видеоролики, данные о геолокации и ценовой информации — то есть представляют собой полноценный многомодальный ответ.

Более того, поиск здесь выполняется не последовательно: система не сначала обрабатывает текст, затем изображения, а потом видео. Вместо этого она анализирует все модальности одновременно — параллельно.

Это принципиально отличается от традиционных поисковых систем. В Google основой остаётся текстовый поиск, тогда как изображения и видео выступают лишь вспомогательными элементами. Для Xiaohongshu же именно интеграция нескольких модальностей лежит в основе пользовательского опыта.

Следовательно, команда ИИ Xiaohongshu столкнулась с конкретной технической задачей: как обеспечить высокую эффективность параллельного многомодального поиска с помощью агентов, одновременно контролируя вычислительные издержки?

Что означает «двухуровневый» подход

В статье термин dual-grained относится к двум уровням оптимизации:

Детальный уровень (Fine-grained) — оптимизация на уровне отдельного агента. Например, агент, отвечающий за текстовый поиск, должен принимать решения о выборе поискового запроса, количестве извлекаемых результатов и моменте завершения поиска. Обучение с подкреплением на этом уровне оптимизирует конкретные стратегии поведения каждого агента.

Грубый уровень (Coarse-grained) — оптимизация на уровне взаимодействия нескольких агентов. В системе одновременно работают несколько агентов (текстовый, изображений, видео), и именно на грубом уровне обучение с подкреплением управляет распределением ресурсов: например, выделяет больше вычислительного бюджета одному агенту и меньше — другому.

Оба уровня должны оптимизироваться совместно. Если оптимизировать только детальный уровень, возможна ситуация, когда «каждый агент работает усердно, но общая эффективность системы остаётся низкой» — например, три агента одновременно ищут информацию в одном и том же направлении, дублируя усилия. Если же фокусироваться исключительно на грубом уровне, внутренние потери эффективности в рамках отдельного агента могут остаться незамеченными.

Как реализована «ориентированность на эффективность»

Наиболее практичная особенность данной работы — прямое включение показателя «эффективности» в функцию награды (reward) обучения с подкреплением.

Многие научные работы в этой области оптимизируют исключительно качество результатов (например, точность или полноту), игнорируя вычислительные затраты. Однако в промышленных условиях ситуация иная: поисковая система Xiaohongshu ежедневно обрабатывает миллионы запросов, и если каждый из них без ограничений задействует многомодальные модели, серверная инфраструктура просто не выдержит нагрузки.

В HyperEyes функция награды объединяет два компонента — качество и стоимость:

Награда = α × Качество поиска + β × (– Вычислительные затраты)

Агенты вынуждены балансировать между этими двумя целями. Иногда достаточно приблизительного результата — и дальнейшее углубление поиска становится излишним. Агенты учатся «останавливаться вовремя».

Препятствия на пути промышленного внедрения

От исследовательской концепции до промышленного решения — несколько существенных барьеров:

Во-первых, проектирование функции награды — чрезвычайно сложная задача. Как формализовать «качество поиска»? Это может быть CTR (доля кликов), время пребывания пользователя на странице, метрики удовлетворённости или другие показатели. Различные метрики могут привести к формированию у агентов совершенно разных поведенческих стратегий. Кроме того, подбор весовых коэффициентов α и β — эмпирическая задача, требующая значительного практического опыта.

Во-вторых, координация параллельных агентов представляет собой серьёзную инженерную проблему. Одновременная работа множества агентов порождает вопросы синхронизации их состояний, распределения ресурсов и восстановления после сбоев. Эти аспекты выходят за рамки возможностей научной статьи и требуют специализированной инфраструктурной поддержки.

В-третьих, стоимость вывода многомодальных моделей сама по себе стремительно снижается — долгосрочная ценность данного оптимизационного подхода нуждается в переоценке. Если уже в следующем году вычислительные затраты на инференс многомодальных моделей сократятся в 10 раз, то тонко продуманный механизм управления эффективностью в HyperEyes может потерять свою актуальность.

Сигнал: какие темы выбирают команды ИИ крупных компаний

В более широком контексте эта статья отражает устойчивый тренд: команды ИИ крупных китайских технологических компаний постепенно смещают фокус с «гонки за моделями» на «гонку за системами».

Два-три года назад большинство публикаций от ведущих компаний были посвящены новым архитектурам моделей, методам обучения или новым бенчмаркам. Сегодня растёт число работ, ориентированных на практические вопросы: как эффективно объединить уже существующие модели в единую производительную систему? Как инженерно оптимизировать компромисс между качеством и стоимостью?

Если рассмотреть статью Xiaohongshu в одном ряду с работами Tencent «Listwise Policy Optimization» и Google «Agentic Discovery», общий вывод очевиден: все эти исследования направлены на то, чтобы сделать ИИ-системы «умнее» в использовании собственных ресурсов — а не просто на то, чтобы делать модели крупнее и мощнее.

Оценка

HyperEyes — это исследовательская работа, ориентированная преимущественно на инженерную применимость. Её академический вклад, возможно, уступает некоторым предыдущим публикациям (например, разложению остатков по среднему и дисперсии или listwise policy optimization — это действительно новые алгоритмические идеи). Однако её практическая ценность может оказаться выше — поскольку статья целенаправленно решает реальную, болезненную задачу промышленного применения.

Для команд, занимающихся разработкой поисковых систем, рекомендательных сервисов или любых решений, требующих многомодального поиска, двухуровневая стратегия оптимизации и концепция награды с учётом эффективности, предложенные в этой статье, представляют несомненный интерес и могут служить источником вдохновения.

Основные источники:

Hugging Face Daily Papers — 11 мая 2026 г.
Команда ИИ Xiaohongshu, «HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents»

Почему Xiaohongshu решила решить эту задачу

Что означает «двухуровневый» подход

Как реализована «ориентированность на эффективность»

Препятствия на пути промышленного внедрения

Сигнал: какие темы выбирают команды ИИ крупных компаний

Оценка

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse