现有的检索系统——不管是词法还是语义的——都通过一个固定的相似性接口暴露语料库,把访问压缩成一次 top-k 检索步骤,然后才进入推理。
对于 agentic search 来说,这个抽象成了瓶颈:精确的词法约束、稀疏线索组合、局部上下文检查、多步假设 refinement,通过调用一个现成的 retriever 都很难实现。而且早期被过滤掉的证据,下游推理再强也找不回来。
TIGER-Lab 这篇论文(作者阵容豪华:Yejin Choi、James Zou、Jiawei Han、Wenhu Chen、Jimmy Lin 全在名单上)提出了一个简单到近乎粗暴的方案:让 Agent 直接用 grep、文件读取、shell 命令搜索原始语料,不用 embedding、不用向量索引、不用检索 API。
直接语料交互(DCI)
DCI 的核心思路是:既然语言 agent 已经足够强了,为什么还要通过一个固定相似性接口来访问语料?给它通用终端工具,让它直接搜索。
这个方法不需要离线索引,天然适应不断变化的本地语料。在 IR 基准和端到端 agentic search 任务上,这个简单的设置在多个 BRIGHT 和 BEIR 数据集上大幅超过了强 sparse、dense 和 reranking 基线,在 BrowseComp-Plus 和多跳 QA 上也取得了强准确率——完全不用传统语义检索器。
这个结果说明了什么
论文的核心结论是:随着语言 agent 变强,检索质量不仅取决于推理能力,还取决于模型与语料交互的接口分辨率。DCI 打开了一个更广阔的接口设计空间。
说实话,这个结果并不完全出乎意料。grep 是精确匹配,没有 embedding 的语义漂移问题。对于需要精确词法约束和多步假设验证的 agentic 任务,直接访问原始文本比经过 embedding 压缩后的向量更有信息量。
但这也有明显的局限:语料库大了之后 grep 的速度是问题;DCI 对 agent 的指令跟随能力和 shell 使用能力有要求;对于需要语义相似性匹配的任务(比如开放式问答),纯词法搜索可能不够。
我的判断
DCI 不是一个"替代所有检索"的方案,而是一个重要的提醒:检索接口的设计空间比大多数人想象的大。 在某些场景下,直接访问原始语料比通过 embedding 间接访问更有效。这个思路对本地知识库、代码库搜索、文档验证等场景特别有启发。
论文的作者阵容——几乎涵盖了 NLP 检索和推理领域最活跃的一批研究者——让这个结果的分量很重。
主要来源:
- arXiv:2605.05242, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction", Zhuofeng Li et al. (TIGER-Lab), May 2026