不用向量数据库做检索：TIGER-Lab 让 Agent 直接用 grep 搜索整个语料库

现有的检索系统——不管是词法还是语义的——都通过一个固定的相似性接口暴露语料库，把访问压缩成一次 top-k 检索步骤，然后才进入推理。

对于 agentic search 来说，这个抽象成了瓶颈：精确的词法约束、稀疏线索组合、局部上下文检查、多步假设 refinement，通过调用一个现成的 retriever 都很难实现。而且早期被过滤掉的证据，下游推理再强也找不回来。

TIGER-Lab 这篇论文（作者阵容豪华：Yejin Choi、James Zou、Jiawei Han、Wenhu Chen、Jimmy Lin 全在名单上）提出了一个简单到近乎粗暴的方案：让 Agent 直接用 grep、文件读取、shell 命令搜索原始语料，不用 embedding、不用向量索引、不用检索 API。

直接语料交互（DCI）

DCI 的核心思路是：既然语言 agent 已经足够强了，为什么还要通过一个固定相似性接口来访问语料？给它通用终端工具，让它直接搜索。

这个方法不需要离线索引，天然适应不断变化的本地语料。在 IR 基准和端到端 agentic search 任务上，这个简单的设置在多个 BRIGHT 和 BEIR 数据集上大幅超过了强 sparse、dense 和 reranking 基线，在 BrowseComp-Plus 和多跳 QA 上也取得了强准确率——完全不用传统语义检索器。

这个结果说明了什么

论文的核心结论是：随着语言 agent 变强，检索质量不仅取决于推理能力，还取决于模型与语料交互的接口分辨率。DCI 打开了一个更广阔的接口设计空间。

说实话，这个结果并不完全出乎意料。grep 是精确匹配，没有 embedding 的语义漂移问题。对于需要精确词法约束和多步假设验证的 agentic 任务，直接访问原始文本比经过 embedding 压缩后的向量更有信息量。

但这也有明显的局限：语料库大了之后 grep 的速度是问题；DCI 对 agent 的指令跟随能力和 shell 使用能力有要求；对于需要语义相似性匹配的任务（比如开放式问答），纯词法搜索可能不够。

我的判断

DCI 不是一个"替代所有检索"的方案，而是一个重要的提醒：检索接口的设计空间比大多数人想象的大。 在某些场景下，直接访问原始语料比通过 embedding 间接访问更有效。这个思路对本地知识库、代码库搜索、文档验证等场景特别有启发。

论文的作者阵容——几乎涵盖了 NLP 检索和推理领域最活跃的一批研究者——让这个结果的分量很重。

主要来源：

arXiv:2605.05242, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction", Zhuofeng Li et al. (TIGER-Lab), May 2026

直接语料交互（DCI）

这个结果说明了什么

我的判断

相关内容

Aider 44K 星：终端里的 AI 结对编程，到底好不好用？

Cline：6 万星的自主编程 Agent，SDK 化之后到底能不能打？

Codegraph：给 Claude Code 建一个本地知识图谱，token 和工具调用双双减少