C
ChaoBro

ベクトルDB不要:TIGER-Lab が Agent に grep で直接コーパス検索させる

ベクトルDB不要:TIGER-Lab が Agent に grep で直接コーパス検索させる

既存の検索システム——語彙的であれ意味的であれ——固定された類似性インターフェースを通してコーパスを公開し、アクセスを単一の top-k 検索ステップに圧縮してから推論に入る。

Agentic search にとって、この抽象はボトルネックになる:正確な語彙制約、スパースな线索の組み合わせ、ローカルコンテキストチェック、多段階仮説リファインメント——既製の retriever を呼び出すだけでは実装が難しい。そして早期にフィルタリングされた証拠は、下流の推論がどれだけ強くても回復できない。

TIGER-Lab の論文(著者陣は Yejin Choi、James Zou、Jiawei Han、Wenhu Chen、Jimmy Lin と豪華)は極めてシンプル——ほぼ粗暴な——解決策を提案する:Agent に grep、ファイル読み取り、シェルコマンドで直接生コーパスを検索させる。embedding もベクトルインデックスも検索 API も不要。

Direct Corpus Interaction(DCI)

核心:言語 agent が十分に強くなった今、なぜ固定類似性インターフェースを通してコーパスにアクセスする必要があるのか?汎用ターミナルツールを与えて直接検索させればいい。

IR ベンチマークとエンドツーエンドの agentic search タスクで、この単純な設定は複数の BRIGHT と BEIR データセットで強力な sparse、dense、reranking ベースラインを大幅に上回り、BrowseComp-Plus とマルチホップ QA でも強力な准确率を達成——従来のセマンティック retriever を一切使わずに。

主要ソース:

  • arXiv:2605.05242, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction", Zhuofeng Li et al. (TIGER-Lab), May 2026