C
ChaoBro

Без векторных баз: TIGER-Lab позволяет агентам искать по корпусу напрямую через grep

Без векторных баз: TIGER-Lab позволяет агентам искать по корпусу напрямую через grep

Существующие системы поиска — лексические или семантические — предоставляют корпус через фиксированный интерфейс сходства, сжимая доступ к одному шагу top-k поиска перед рассуждением.

Для agent search эта абстракция становится бутылочным горлышком: точные лексические ограничения, разреженные комбинации подсказок, локальные проверки контекста, многошаговое уточнение гипотез — всё это трудно реализовать через вызов готового retriever'а. А отфильтрованные на раннем этапе доказательства не могут быть восстановлены даже самым сильным downstream-рассуждением.

Статья от TIGER-Lab (состав авторов впечатляет: Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin) предлагает решение настолько простое, что почти грубое: пусть агент ищет по сырому корпусу напрямую через grep, чтение файлов и shell-команды — без эмбеддингов, без векторного индекса, без retrieval API.

Direct Corpus Interaction (DCI)

На IR-бенчмарках и end-to-end задачах agent search эта простая настройка существенно превосходит сильные sparse, dense и reranking baseline'ы на нескольких датасетах BRIGHT и BEIR, достигая сильной точности на BrowseComp-Plus и multi-hop QA — без какого-либо традиционного семантического retriever'а.

Источники:

  • arXiv:2605.05242, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction", Zhuofeng Li et al. (TIGER-Lab), May 2026