RAG (поиск с последующей генерацией) существует уже три года, и все это время исследователи сосредоточены на оптимизации одного единственного компонента: степени семантического сходства эмбеддингов.
Лучшие модели эмбеддингов, более эффективные векторные базы данных, усовершенствованные стратегии разбиения текста на чанки — направления исследований самые разнообразные, но исходное допущение остаётся неоспоримым: поиск сводится к сопоставлению по степени сходства.
Лаборатория TIGER-Lab (Университет штата Нью-Йорк в Стони-Брук) опубликовала в Hugging Face Daily Papers статью, прямо оспаривающую это фундаментальное допущение. Статья получила 87 голосов «за» и заняла второе место в рейтинге публикаций того дня.
Название статьи: «Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction».
Дословный перевод: «За пределами семантического сходства: переосмысление поиска для агентного поиска посредством прямого взаимодействия с корпусом».
Фундаментальные ограничения поиска по семантическому сходству
В статье обозначена ключевая проблема: поиск по семантическому сходству принципиально непригоден в одном конкретном сценарии — когда информация, необходимая для ответа на запрос пользователя, распределена по нескольким участкам документа, а не сконцентрирована в отдельном фрагменте, семантически близком к тексту запроса.
Пример:
Пользователь спрашивает: «Каково финансовое положение этой компании?»
Поиск по семантическому сходству преобразует этот запрос в эмбеддинг и ищет в корпусе фрагменты, семантически близкие к выражению «финансовое положение компании».
Но что, если в документах нет ни одной фразы, прямо формулирующей «финансовое положение компании составляет…»? Что, если финансовые данные разбросаны по таблице доходов, записям расходов, отчёту о движении денежных средств и разделу «Обсуждение руководством»?
Поиск по семантическому сходству вернёт несколько фрагментов, «выглядящих релевантными», но с высокой вероятностью пропустит действительно критически важную информацию — потому что на уровне текста эти фрагменты не демонстрируют явного семантического сходства с запросом пользователя.
Идея прямого взаимодействия с корпусом (Direct Corpus Interaction)
Предлагаемая в статье альтернатива заключается в том, чтобы отказаться от сопоставления по степени сходства и позволить поисковому агенту «исследовать» и «запрашивать» корпус напрямую.
Проведём аналогию:
- Поиск по семантическому сходству: как библиотекарь, который, выслушав ваш запрос, выбирает с полок несколько книг, «выглядящих релевантными», и передаёт их вам.
- Прямое взаимодействие с корпусом (Direct Corpus Interaction): как если бы вы сами вошли в библиотеку, изучили каталоги, выполнили перекрёстные ссылки и проследили цепочку улик.
Второй подход гибче, но и сложнее. Он требует от агента следующих способностей:
- Понимания структуры документов (оглавление, главы, перекрёстные ссылки);
- Динамической адаптации стратегии поиска (переход от одной улики к другой);
- Интеграции распределённой информации (сборка целостной картины из нескольких фрагментов).
Техническая реализация
Согласно описанию в статье, ядром Direct Corpus Interaction является процесс поиска, управляемый агентом:
- Первоначальное исследование: агент анализирует глобальную структуру документа (заголовки, оглавление, аннотацию), формируя «картографическое представление» корпуса.
- Целенаправленный запрос: на основе вопроса пользователя агент определяет, какие разделы следует изучить детально.
- Перекрёстная проверка: агент устанавливает связи между различными разделами, проверяя согласованность и достоверность информации.
- Интеграция информации: агент объединяет найденные данные в логически связанный и содержательный ответ.
Этот процесс не требует эмбеддингов, векторных баз данных или разбиения текста на чанки. Вместо этого он полагается на агента, способного понимать структуру документов, планировать траекторию поиска и рассуждать о взаимосвязях между фактами.
Какова цена такого подхода?
Стоимость этого решения очевидна: каждый поиск требует вызова языковой модели для выполнения рассуждений, а не однократного поиска по векторным соседям.
Поиск по векторам: миллисекунды, затраты практически нулевые.
Поиск с участием агента: секунды, каждый вызов потребляет токены LLM.
Статья напрямую ставит вопрос, на который необходимо дать ответ: насколько повышение точности оправдывает эти дополнительные затраты?
Для ряда сценариев ответ однозначно положительный:
- Юридические консультации: пропущенный пункт может полностью изменить юридическую оценку.
- Медицинская диагностика: признаки, разбросанные по различным лабораторным отчётам, могут указывать на единственный клинически значимый вывод.
- Научные исследования: интеграция информации из нескольких научных работ — обязательное условие углублённого анализа.
Однако для других задач поиск по семантическому сходству остаётся более практичным выбором:
- Ответы на часто задаваемые вопросы (FAQ).
- Простой поиск по документам.
- Приложения, чувствительные к задержкам.
Более глубокий смысл
Главная ценность этой статьи заключается не только в предложенной технике, но и в смене исследовательской парадигмы: от вопроса «как сделать поиск лучше?» к вопросу «что вообще должно представлять собой поиск?»
Большинство исследований RAG за последние три года развивались в рамках существующей парадигмы: улучшение эмбеддингов, оптимизация векторных индексов, совершенствование этапа повторного ранжирования. Статья TIGER-Lab же задаёт более фундаментальный вопрос: если поиск — это не просто «поиск семантически близких фрагментов», а «навигация в пространстве знаний», то как должна быть устроена вся архитектура?
Этот вопрос перекликается с направлением «RAG без векторов» (vectorless RAG), разрабатываемым командой PageIndex (о котором мы ранее сообщали), однако TIGER-Lab делает акцент на другом аспекте: не просто на отказе от векторов как технического инструмента, а на переходе к агентному, интерактивному режиму взаимодействия с информацией.
Оценка
Прямое взаимодействие с корпусом (Direct Corpus Interaction) — перспективное направление, особенно в сценариях сложного понимания документов и многошагового логического вывода. Однако оно не заменит поиск по семантическому сходству — эти два подхода решают разные задачи и занимают разные ниши.
Наиболее вероятное будущее — сосуществование обоих методов: простые запросы будут обрабатываться векторным поиском, а сложные — исследованием с участием агента. Ещё более радикальный вариант: агент сам будет принимать решение о выборе метода в зависимости от характера запроса.
Основные источники:
- Hugging Face Daily Papers — 8 мая 2026 г.
- TIGER-Lab, «Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction»