C
ChaoBro

PageIndex:不用向量搜索的 RAG,31,000 星背后的技术赌注

RAG 的向量嵌入方案用了快三年了。突然有人跳出来说:不用向量,用索引。

VectifyAI / PageIndex 在 GitHub 上拿了 31,302 颗星。31,000 星在 AI 开源项目里不算顶级——但这个项目的 claim 足够大胆:它声称可以在不依赖向量嵌入的情况下,实现比传统向量 RAG 更好的文档检索效果。

核心思路

传统 RAG 的工作流:文档 → 分块 → 向量化 → 存入向量数据库 → 查询时计算相似度 → 返回最相关的 chunks。

PageIndex 的思路是:文档 → 生成结构化索引 → 查询时通过索引定位 → LLM 推理过滤 → 返回结果。

关键区别在于相似度的计算方式。传统方案把语义相似度压缩成一个向量空间中的距离值——这很高效,但丢失了大量结构化信息。PageIndex 用 LLM 的推理能力来做匹配判断——更「贵」,但更「聪明」。

这玩意儿靠谱吗

31,000 星不等于 31,000 个生产部署。星是态度,部署是现实。

从技术可行性来看,这个方向有几个说得通的点:

向量嵌入的局限在于语义模糊性。"银行"在金融文档和河边文档中的向量可能是相似的,但含义完全不同。LLM 推理天然具备上下文消歧能力。

另外,长文档检索一直是向量 RAG 的痛点。当文档超过 10 页,分块策略会严重破坏上下文连贯性。PageIndex 的索引方案理论上可以保持文档的全局结构。

但代价也很明确:成本和速度。每一轮索引查询都要调用 LLM 做推理判断——这意味着每次检索的成本是传统向量搜索的数倍甚至数十倍。

项目状态

从 GitHub 数据来看,项目有 2,669 个 fork,说明有人真的在 fork 后做二次开发。issue 区的活跃度需要自己去看——但 star 增长曲线说明社区关注度在上升。

作者团队来自 VectifyAI,是一个专注文档处理 AI 的初创公司。这不是一群周末做着玩的开发者,而是一个有明确商业目标的项目。

我的看法

我不认为 PageIndex 会完全取代向量 RAG。但它可能在特定场景下成为更好的选择:

  • 高价值文档的精确检索:合同、法律文件、医学文献——这些场景下,准确性远比速度重要
  • 长文档场景:整本书、整份报告的全局检索
  • 多语言混合文档:向量嵌入对多语言的支持一直不够好,LLM 推理天然跨语言

对于大多数日常场景——FAQ 检索、知识库问答——向量 RAG 仍然是性价比最高的选择。但如果你在用向量 RAG 时被语义歧义或长文档问题折磨过,PageIndex 值得花半小时试一下。

一个观察点:如果这个方案的延迟和成本能在接下来的迭代中降到可接受的范围,那 RAG 的技术路线讨论会变得很有意思。向量 vs 索引,可能不是替代关系,而是互补关系。


主要来源: