RAG(检索增强生成)跑了三年,所有人都在优化一个东西:embedding 的相似度。
更好的 embedding 模型、更好的向量数据库、更好的 chunking 策略——方向五花八门,但前提从未被质疑过:检索就是做相似度匹配。
TIGER-Lab(Stony Brook University 的 AI 实验室)在 Hugging Face Daily Papers 上发表了一篇论文,直接挑战了这个前提。87 upvotes,当天排名第二。
论文标题:"Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"。
翻译过来就是:别再用语义相似度做检索了。让搜索 agent 直接跟语料库交互。
语义相似度检索的根本局限
论文指出了一个问题:semantic similarity 检索在一个特定场景下天然不够用——当用户的查询需要的信息分散在文档的多个位置,而不是集中在某个跟查询文本语义接近的片段里时。
举个例子:
用户问:"这个公司的财务状况怎么样?"
语义相似度检索会把这个问题 embedding,然后在文档库里找跟"公司财务状况"语义接近的片段。
但如果文档里没有一句话直接说"公司的财务状况是……"呢?如果财务信息分散在收入表、支出记录、现金流报告、管理层讨论等多个章节里呢?
语义相似度检索会返回几个"看起来相关"的片段,但很可能遗漏了真正关键的信息——因为那些信息在文本层面跟用户问题并不相似。
Direct Corpus Interaction 的思路
论文提出的替代方案是:不让检索系统做相似度匹配,而是让 agent 直接在语料库中"探索"和"查询"。
类比一下:
- 语义相似度检索:像是一个图书管理员,听你说完需求,从书架上抽几本"看起来相关"的书给你
- Direct Corpus Interaction:像是你自己走进图书馆,翻阅目录、交叉引用、追踪线索
后者更灵活,但也更复杂。它要求 agent 具备:
- 理解文档结构的能力(目录、章节、交叉引用)
- 动态调整搜索策略的能力(从一个线索跳到另一个)
- 整合分散信息的能力(把多个片段的拼图拼起来)
技术实现
从论文描述看,Direct Corpus Interaction 的核心是一个 agent-based 的检索流程:
- 初始探索:agent 阅读文档的全局结构(标题、目录、摘要),建立对语料库的"地图"
- 定向查询:根据用户问题,agent 决定要深入哪些部分
- 交叉验证:agent 在不同部分之间建立关联,验证信息的一致性
- 信息整合:agent 把找到的信息整合成一个连贯的回答
这个过程不需要 embedding,不需要向量数据库,不需要 chunking。它需要的是一个能理解文档结构、能规划搜索路径、能推理信息关系的 agent。
代价是什么
这种方案的代价很明确:每次检索都要调用 LLM 做推理,而不是做一次向量近邻搜索。
向量搜索:毫秒级,成本几乎为零 Agent 检索:秒级,每次消耗 LLM token
论文需要回答的问题很直接:accuracy 的提升值不值得这些额外的成本?
对于某些场景,答案是肯定的:
- 法律咨询:一个遗漏的条款可能改变整个判断
- 医疗诊断:分散在不同检验报告中的线索可能指向关键结论
- 学术研究:跨论文的信息整合是刚需
但对于另一些场景,语义相似度检索仍然是更务实的选择:
- FAQ 问答
- 简单的文档搜索
- 对延迟敏感的应用
更深层的信号
这篇论文更大的意义在于它代表了一个研究方向的转向:从"如何把检索做得更好"到"检索到底应该是什么"。
过去三年的 RAG 研究,大部分是在现有的检索范式内做优化——更好的 embedding、更好的向量索引、更好的重排序。但 TIGER-Lab 这篇论文问了一个更根本的问题:如果检索不只是"找相似的文本",而是"在知识空间中导航",那整个架构应该怎么设计?
这个问题跟 PageIndex 的 "vectorless RAG" 方向有共鸣(我们之前报道过),但 TIGER-Lab 的切入点更具体——它强调的是 agentic 的交互模式,而不只是技术上的"不用向量"。
判断
Direct Corpus Interaction 是一个有潜力的方向,特别是在复杂文档理解和多跳推理的场景里。但它不会替代语义相似度检索——两者的定位不同。
更可能的未来是:两种方法并存。简单的查询用向量检索,复杂的查询用 agent 探索。或者更激进一点:agent 自己决定什么时候用哪种方法。
主要来源:
- Hugging Face Daily Papers - May 8, 2026
- TIGER-Lab, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"