既存の検索システム——語彙的であれ意味的であれ——固定された類似性インターフェースを通してコーパスを公開し、アクセスを単一の top-k 検索ステップに圧縮してから推論に入る。
Agentic search にとって、この抽象はボトルネックになる:正確な語彙制約、スパースな线索の組み合わせ、ローカルコンテキストチェック、多段階仮説リファインメント——既製の retriever を呼び出すだけでは実装が難しい。そして早期にフィルタリングされた証拠は、下流の推論がどれだけ強くても回復できない。
TIGER-Lab の論文(著者陣は Yejin Choi、James Zou、Jiawei Han、Wenhu Chen、Jimmy Lin と豪華)は極めてシンプル——ほぼ粗暴な——解決策を提案する:Agent に grep、ファイル読み取り、シェルコマンドで直接生コーパスを検索させる。embedding もベクトルインデックスも検索 API も不要。
Direct Corpus Interaction(DCI)
核心:言語 agent が十分に強くなった今、なぜ固定類似性インターフェースを通してコーパスにアクセスする必要があるのか?汎用ターミナルツールを与えて直接検索させればいい。
IR ベンチマークとエンドツーエンドの agentic search タスクで、この単純な設定は複数の BRIGHT と BEIR データセットで強力な sparse、dense、reranking ベースラインを大幅に上回り、BrowseComp-Plus とマルチホップ QA でも強力な准确率を達成——従来のセマンティック retriever を一切使わずに。
主要ソース:
- arXiv:2605.05242, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction", Zhuofeng Li et al. (TIGER-Lab), May 2026