TIGER-Lab 新论文：别再搞语义相似度了，Agentic Search 需要"直接读取语料库"

RAG（检索增强生成）跑了三年，所有人都在优化一个东西：embedding 的相似度。

更好的 embedding 模型、更好的向量数据库、更好的 chunking 策略——方向五花八门，但前提从未被质疑过：检索就是做相似度匹配。

TIGER-Lab（Stony Brook University 的 AI 实验室）在 Hugging Face Daily Papers 上发表了一篇论文，直接挑战了这个前提。87 upvotes，当天排名第二。

论文标题："Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"。

翻译过来就是：别再用语义相似度做检索了。让搜索 agent 直接跟语料库交互。

语义相似度检索的根本局限

论文指出了一个问题：semantic similarity 检索在一个特定场景下天然不够用——当用户的查询需要的信息分散在文档的多个位置，而不是集中在某个跟查询文本语义接近的片段里时。

举个例子：

用户问："这个公司的财务状况怎么样？"

语义相似度检索会把这个问题 embedding，然后在文档库里找跟"公司财务状况"语义接近的片段。

但如果文档里没有一句话直接说"公司的财务状况是……"呢？如果财务信息分散在收入表、支出记录、现金流报告、管理层讨论等多个章节里呢？

语义相似度检索会返回几个"看起来相关"的片段，但很可能遗漏了真正关键的信息——因为那些信息在文本层面跟用户问题并不相似。

Direct Corpus Interaction 的思路

论文提出的替代方案是：不让检索系统做相似度匹配，而是让 agent 直接在语料库中"探索"和"查询"。

类比一下：

语义相似度检索：像是一个图书管理员，听你说完需求，从书架上抽几本"看起来相关"的书给你
Direct Corpus Interaction：像是你自己走进图书馆，翻阅目录、交叉引用、追踪线索

后者更灵活，但也更复杂。它要求 agent 具备：

理解文档结构的能力（目录、章节、交叉引用）
动态调整搜索策略的能力（从一个线索跳到另一个）
整合分散信息的能力（把多个片段的拼图拼起来）

技术实现

从论文描述看，Direct Corpus Interaction 的核心是一个 agent-based 的检索流程：

初始探索：agent 阅读文档的全局结构（标题、目录、摘要），建立对语料库的"地图"
定向查询：根据用户问题，agent 决定要深入哪些部分
交叉验证：agent 在不同部分之间建立关联，验证信息的一致性
信息整合：agent 把找到的信息整合成一个连贯的回答

这个过程不需要 embedding，不需要向量数据库，不需要 chunking。它需要的是一个能理解文档结构、能规划搜索路径、能推理信息关系的 agent。

代价是什么

这种方案的代价很明确：每次检索都要调用 LLM 做推理，而不是做一次向量近邻搜索。

向量搜索：毫秒级，成本几乎为零 Agent 检索：秒级，每次消耗 LLM token

论文需要回答的问题很直接：accuracy 的提升值不值得这些额外的成本？

对于某些场景，答案是肯定的：

法律咨询：一个遗漏的条款可能改变整个判断
医疗诊断：分散在不同检验报告中的线索可能指向关键结论
学术研究：跨论文的信息整合是刚需

但对于另一些场景，语义相似度检索仍然是更务实的选择：

FAQ 问答
简单的文档搜索
对延迟敏感的应用

更深层的信号

这篇论文更大的意义在于它代表了一个研究方向的转向：从"如何把检索做得更好"到"检索到底应该是什么"。

过去三年的 RAG 研究，大部分是在现有的检索范式内做优化——更好的 embedding、更好的向量索引、更好的重排序。但 TIGER-Lab 这篇论文问了一个更根本的问题：如果检索不只是"找相似的文本"，而是"在知识空间中导航"，那整个架构应该怎么设计？

这个问题跟 PageIndex 的 "vectorless RAG" 方向有共鸣（我们之前报道过），但 TIGER-Lab 的切入点更具体——它强调的是 agentic 的交互模式，而不只是技术上的"不用向量"。

判断

Direct Corpus Interaction 是一个有潜力的方向，特别是在复杂文档理解和多跳推理的场景里。但它不会替代语义相似度检索——两者的定位不同。

更可能的未来是：两种方法并存。简单的查询用向量检索，复杂的查询用 agent 探索。或者更激进一点：agent 自己决定什么时候用哪种方法。

主要来源：

Hugging Face Daily Papers - May 8, 2026
TIGER-Lab, "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"

语义相似度检索的根本局限

Direct Corpus Interaction 的思路

技术实现

代价是什么

更深层的信号

判断

相关内容

LLM 写组合优化代码时最大的坑：你让它优化，它反而变蠢了

Rubric 越细，模型越会钻空子：基于评分标准的强化学习中的奖励黑客

RLHF 正在悄悄毁掉 AI 的"诚实"：Semantic Reward Collapse 到底说了什么