OpenSearch-VL: открытый мультимодальный поисковый агент с RL для каскадных отказов

Поиск эволюционировал от ключевого сопоставления к семантическому поиску, а теперь к мультимодальному — темпы итераций трудно отслеживать. OpenSearch-VL — новейший игрок с открытым исходным кодом на этой линии.

Какую проблему он решает

Основная сложность мультимодальных поисковых агентов — не «что искать», а «что делать, когда поиск провалился».

Агент сначала воспринимает входные данные (возможно, текст + изображения), затем планирует стратегию поиска, вызывает инструменты, анализирует результаты, затем решает следующий шаг. Если любое звено в этой цепи ломается, весь поиск погибает.

OpenSearch-VL использует метод под названием fatal-aware GRPO для решения этой проблемы. GRPO — это Group Relative Policy Optimization, алгоритм обучения с подкреплением. Fatal-aware означает, что модель в процессе обучения научается различать «мелкие промахи» и «фатальные ошибки» и по-разному реагирует на последние.

Проще говоря: обычный GRPO при встрече с ошибкой пытается её исправить. Fatal-aware GRPO сначала оценивает, является ли ошибка фатальной. Если да, он переключает стратегию вместо того, чтобы пытаться починить.

Единый набор инструментов

Фреймворк включает единую среду инструментов, в которой поисковый агент может вызывать инструменты, включая поиск, анализ, ранжирование, мультимодальное понимание и другие. Эти инструменты не просто слабо связаны — они обучаются RL в единой среде.

Это означает более низкие затраты на переключение между инструментами и более стабильные стратегии, изучаемые агентом.

Курируемые датасеты

Отчёт упоминает «курируемые датасеты». Это заслуживает внимания — качество обучающих данных для мультимодального поиска напрямую определяет потолок агента. Случайные пары изображение-текст не дадут хороших результатов.

Команда OpenSearch invested effort в отбор данных, что важно для воспроизводимости.

Основные источники:

Какую проблему он решает

Единый набор инструментов

Курируемые датасеты

Похожие материалы

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

flue: сооснователь Astro открыл фреймворк песочницы для AI-агентов

LMSYS P2P-передача весов: синхронизация RL-обучения 1T параметров за секунды