Поиск эволюционировал от ключевого сопоставления к семантическому поиску, а теперь к мультимодальному — темпы итераций трудно отслеживать. OpenSearch-VL — новейший игрок с открытым исходным кодом на этой линии.
Какую проблему он решает
Основная сложность мультимодальных поисковых агентов — не «что искать», а «что делать, когда поиск провалился».
Агент сначала воспринимает входные данные (возможно, текст + изображения), затем планирует стратегию поиска, вызывает инструменты, анализирует результаты, затем решает следующий шаг. Если любое звено в этой цепи ломается, весь поиск погибает.
OpenSearch-VL использует метод под названием fatal-aware GRPO для решения этой проблемы. GRPO — это Group Relative Policy Optimization, алгоритм обучения с подкреплением. Fatal-aware означает, что модель в процессе обучения научается различать «мелкие промахи» и «фатальные ошибки» и по-разному реагирует на последние.
Проще говоря: обычный GRPO при встрече с ошибкой пытается её исправить. Fatal-aware GRPO сначала оценивает, является ли ошибка фатальной. Если да, он переключает стратегию вместо того, чтобы пытаться починить.
Единый набор инструментов
Фреймворк включает единую среду инструментов, в которой поисковый агент может вызывать инструменты, включая поиск, анализ, ранжирование, мультимодальное понимание и другие. Эти инструменты не просто слабо связаны — они обучаются RL в единой среде.
Это означает более низкие затраты на переключение между инструментами и более стабильные стратегии, изучаемые агентом.
Курируемые датасеты
Отчёт упоминает «курируемые датасеты». Это заслуживает внимания — качество обучающих данных для мультимодального поиска напрямую определяет потолок агента. Случайные пары изображение-текст не дадут хороших результатов.
Команда OpenSearch invested effort в отбор данных, что важно для воспроизводимости.
Основные источники: