RAG 的向量嵌入方案用了快三年了。突然有人跳出来说:不用向量,用索引。
VectifyAI / PageIndex 在 GitHub 上拿了 31,302 颗星。31,000 星在 AI 开源项目里不算顶级——但这个项目的 claim 足够大胆:它声称可以在不依赖向量嵌入的情况下,实现比传统向量 RAG 更好的文档检索效果。
核心思路
传统 RAG 的工作流:文档 → 分块 → 向量化 → 存入向量数据库 → 查询时计算相似度 → 返回最相关的 chunks。
PageIndex 的思路是:文档 → 生成结构化索引 → 查询时通过索引定位 → LLM 推理过滤 → 返回结果。
关键区别在于相似度的计算方式。传统方案把语义相似度压缩成一个向量空间中的距离值——这很高效,但丢失了大量结构化信息。PageIndex 用 LLM 的推理能力来做匹配判断——更「贵」,但更「聪明」。
这玩意儿靠谱吗
31,000 星不等于 31,000 个生产部署。星是态度,部署是现实。
从技术可行性来看,这个方向有几个说得通的点:
向量嵌入的局限在于语义模糊性。"银行"在金融文档和河边文档中的向量可能是相似的,但含义完全不同。LLM 推理天然具备上下文消歧能力。
另外,长文档检索一直是向量 RAG 的痛点。当文档超过 10 页,分块策略会严重破坏上下文连贯性。PageIndex 的索引方案理论上可以保持文档的全局结构。
但代价也很明确:成本和速度。每一轮索引查询都要调用 LLM 做推理判断——这意味着每次检索的成本是传统向量搜索的数倍甚至数十倍。
项目状态
从 GitHub 数据来看,项目有 2,669 个 fork,说明有人真的在 fork 后做二次开发。issue 区的活跃度需要自己去看——但 star 增长曲线说明社区关注度在上升。
作者团队来自 VectifyAI,是一个专注文档处理 AI 的初创公司。这不是一群周末做着玩的开发者,而是一个有明确商业目标的项目。
我的看法
我不认为 PageIndex 会完全取代向量 RAG。但它可能在特定场景下成为更好的选择:
- 高价值文档的精确检索:合同、法律文件、医学文献——这些场景下,准确性远比速度重要
- 长文档场景:整本书、整份报告的全局检索
- 多语言混合文档:向量嵌入对多语言的支持一直不够好,LLM 推理天然跨语言
对于大多数日常场景——FAQ 检索、知识库问答——向量 RAG 仍然是性价比最高的选择。但如果你在用向量 RAG 时被语义歧义或长文档问题折磨过,PageIndex 值得花半小时试一下。
一个观察点:如果这个方案的延迟和成本能在接下来的迭代中降到可接受的范围,那 RAG 的技术路线讨论会变得很有意思。向量 vs 索引,可能不是替代关系,而是互补关系。
主要来源: