PageIndex：不用向量搜索的 RAG，31,000 星背后的技术赌注

RAG 的向量嵌入方案用了快三年了。突然有人跳出来说：不用向量，用索引。

VectifyAI / PageIndex 在 GitHub 上拿了 31,302 颗星。31,000 星在 AI 开源项目里不算顶级——但这个项目的 claim 足够大胆：它声称可以在不依赖向量嵌入的情况下，实现比传统向量 RAG 更好的文档检索效果。

核心思路

传统 RAG 的工作流：文档 → 分块 → 向量化 → 存入向量数据库 → 查询时计算相似度 → 返回最相关的 chunks。

PageIndex 的思路是：文档 → 生成结构化索引 → 查询时通过索引定位 → LLM 推理过滤 → 返回结果。

关键区别在于相似度的计算方式。传统方案把语义相似度压缩成一个向量空间中的距离值——这很高效，但丢失了大量结构化信息。PageIndex 用 LLM 的推理能力来做匹配判断——更「贵」，但更「聪明」。

31,000 星不等于 31,000 个生产部署。星是态度，部署是现实。

从技术可行性来看，这个方向有几个说得通的点：

向量嵌入的局限在于语义模糊性。"银行"在金融文档和河边文档中的向量可能是相似的，但含义完全不同。LLM 推理天然具备上下文消歧能力。

另外，长文档检索一直是向量 RAG 的痛点。当文档超过 10 页，分块策略会严重破坏上下文连贯性。PageIndex 的索引方案理论上可以保持文档的全局结构。

但代价也很明确：成本和速度。每一轮索引查询都要调用 LLM 做推理判断——这意味着每次检索的成本是传统向量搜索的数倍甚至数十倍。

从 GitHub 数据来看，项目有 2,669 个 fork，说明有人真的在 fork 后做二次开发。issue 区的活跃度需要自己去看——但 star 增长曲线说明社区关注度在上升。

作者团队来自 VectifyAI，是一个专注文档处理 AI 的初创公司。这不是一群周末做着玩的开发者，而是一个有明确商业目标的项目。

我不认为 PageIndex 会完全取代向量 RAG。但它可能在特定场景下成为更好的选择：

对于大多数日常场景——FAQ 检索、知识库问答——向量 RAG 仍然是性价比最高的选择。但如果你在用向量 RAG 时被语义歧义或长文档问题折磨过，PageIndex 值得花半小时试一下。

一个观察点：如果这个方案的延迟和成本能在接下来的迭代中降到可接受的范围，那 RAG 的技术路线讨论会变得很有意思。向量 vs 索引，可能不是替代关系，而是互补关系。

主要来源：