C
ChaoBro

Новая статья TIGER-Lab: хватит заниматься семантическим сходством — для агентного поиска нужен «прямой доступ к корпусу»

Новая статья TIGER-Lab: хватит заниматься семантическим сходством — для агентного поиска нужен «прямой доступ к корпусу»

RAG (поиск с последующей генерацией) существует уже три года, и все это время исследователи сосредоточены на оптимизации одного единственного компонента: степени семантического сходства эмбеддингов.

Лучшие модели эмбеддингов, более эффективные векторные базы данных, усовершенствованные стратегии разбиения текста на чанки — направления исследований самые разнообразные, но исходное допущение остаётся неоспоримым: поиск сводится к сопоставлению по степени сходства.

Лаборатория TIGER-Lab (Университет штата Нью-Йорк в Стони-Брук) опубликовала в Hugging Face Daily Papers статью, прямо оспаривающую это фундаментальное допущение. Статья получила 87 голосов «за» и заняла второе место в рейтинге публикаций того дня.

Название статьи: «Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction».

Дословный перевод: «За пределами семантического сходства: переосмысление поиска для агентного поиска посредством прямого взаимодействия с корпусом».

Фундаментальные ограничения поиска по семантическому сходству

В статье обозначена ключевая проблема: поиск по семантическому сходству принципиально непригоден в одном конкретном сценарии — когда информация, необходимая для ответа на запрос пользователя, распределена по нескольким участкам документа, а не сконцентрирована в отдельном фрагменте, семантически близком к тексту запроса.

Пример:

Пользователь спрашивает: «Каково финансовое положение этой компании?»

Поиск по семантическому сходству преобразует этот запрос в эмбеддинг и ищет в корпусе фрагменты, семантически близкие к выражению «финансовое положение компании».

Но что, если в документах нет ни одной фразы, прямо формулирующей «финансовое положение компании составляет…»? Что, если финансовые данные разбросаны по таблице доходов, записям расходов, отчёту о движении денежных средств и разделу «Обсуждение руководством»?

Поиск по семантическому сходству вернёт несколько фрагментов, «выглядящих релевантными», но с высокой вероятностью пропустит действительно критически важную информацию — потому что на уровне текста эти фрагменты не демонстрируют явного семантического сходства с запросом пользователя.

Идея прямого взаимодействия с корпусом (Direct Corpus Interaction)

Предлагаемая в статье альтернатива заключается в том, чтобы отказаться от сопоставления по степени сходства и позволить поисковому агенту «исследовать» и «запрашивать» корпус напрямую.

Проведём аналогию:

  • Поиск по семантическому сходству: как библиотекарь, который, выслушав ваш запрос, выбирает с полок несколько книг, «выглядящих релевантными», и передаёт их вам.
  • Прямое взаимодействие с корпусом (Direct Corpus Interaction): как если бы вы сами вошли в библиотеку, изучили каталоги, выполнили перекрёстные ссылки и проследили цепочку улик.

Второй подход гибче, но и сложнее. Он требует от агента следующих способностей:

  • Понимания структуры документов (оглавление, главы, перекрёстные ссылки);
  • Динамической адаптации стратегии поиска (переход от одной улики к другой);
  • Интеграции распределённой информации (сборка целостной картины из нескольких фрагментов).

Техническая реализация

Согласно описанию в статье, ядром Direct Corpus Interaction является процесс поиска, управляемый агентом:

  1. Первоначальное исследование: агент анализирует глобальную структуру документа (заголовки, оглавление, аннотацию), формируя «картографическое представление» корпуса.
  2. Целенаправленный запрос: на основе вопроса пользователя агент определяет, какие разделы следует изучить детально.
  3. Перекрёстная проверка: агент устанавливает связи между различными разделами, проверяя согласованность и достоверность информации.
  4. Интеграция информации: агент объединяет найденные данные в логически связанный и содержательный ответ.

Этот процесс не требует эмбеддингов, векторных баз данных или разбиения текста на чанки. Вместо этого он полагается на агента, способного понимать структуру документов, планировать траекторию поиска и рассуждать о взаимосвязях между фактами.

Какова цена такого подхода?

Стоимость этого решения очевидна: каждый поиск требует вызова языковой модели для выполнения рассуждений, а не однократного поиска по векторным соседям.

Поиск по векторам: миллисекунды, затраты практически нулевые.
Поиск с участием агента: секунды, каждый вызов потребляет токены LLM.

Статья напрямую ставит вопрос, на который необходимо дать ответ: насколько повышение точности оправдывает эти дополнительные затраты?

Для ряда сценариев ответ однозначно положительный:

  • Юридические консультации: пропущенный пункт может полностью изменить юридическую оценку.
  • Медицинская диагностика: признаки, разбросанные по различным лабораторным отчётам, могут указывать на единственный клинически значимый вывод.
  • Научные исследования: интеграция информации из нескольких научных работ — обязательное условие углублённого анализа.

Однако для других задач поиск по семантическому сходству остаётся более практичным выбором:

  • Ответы на часто задаваемые вопросы (FAQ).
  • Простой поиск по документам.
  • Приложения, чувствительные к задержкам.

Более глубокий смысл

Главная ценность этой статьи заключается не только в предложенной технике, но и в смене исследовательской парадигмы: от вопроса «как сделать поиск лучше?» к вопросу «что вообще должно представлять собой поиск?»

Большинство исследований RAG за последние три года развивались в рамках существующей парадигмы: улучшение эмбеддингов, оптимизация векторных индексов, совершенствование этапа повторного ранжирования. Статья TIGER-Lab же задаёт более фундаментальный вопрос: если поиск — это не просто «поиск семантически близких фрагментов», а «навигация в пространстве знаний», то как должна быть устроена вся архитектура?

Этот вопрос перекликается с направлением «RAG без векторов» (vectorless RAG), разрабатываемым командой PageIndex (о котором мы ранее сообщали), однако TIGER-Lab делает акцент на другом аспекте: не просто на отказе от векторов как технического инструмента, а на переходе к агентному, интерактивному режиму взаимодействия с информацией.

Оценка

Прямое взаимодействие с корпусом (Direct Corpus Interaction) — перспективное направление, особенно в сценариях сложного понимания документов и многошагового логического вывода. Однако оно не заменит поиск по семантическому сходству — эти два подхода решают разные задачи и занимают разные ниши.

Наиболее вероятное будущее — сосуществование обоих методов: простые запросы будут обрабатываться векторным поиском, а сложные — исследованием с участием агента. Ещё более радикальный вариант: агент сам будет принимать решение о выборе метода в зависимости от характера запроса.

Основные источники: