PageIndex：不用向量数据库的 RAG，3 万星背后的"推理式检索"工作流

RAG（检索增强生成）用了几年了。大多数人的做法都一样：文档切片 → 向量化 → 存入向量数据库 → 查询时做语义相似度匹配 → 把最相似的片段塞给 LLM。

这套流程有个一直被吐槽的问题：向量相似度不等于信息相关性。 两个文本在向量空间里离得近，不代表它们在逻辑上有关联。

PageIndex 想换个做法。

它是什么

PageIndex 是 VectifyAI 开源的"文档索引"系统，主打无向量、基于推理的 RAG（Vectorless, Reasoning-based RAG）。

核心思路：不做向量化，而是给文档建结构化的索引。查询时，不是靠向量相似度找"最像"的片段，而是让模型推理出哪些部分应该被检索，然后按索引精准提取。

30,800 颗星，本周涨了 4,555。最近 284 次 commit，最后更新在 20 小时前。项目活跃度不错。

说白了：把"检索"这个环节从"匹配问题"变成了"推理问题"。

好处：

代价：

我判断 PageIndex 最适合这几类场景：

需要高精度检索的专业领域。 法律、医疗、技术文档——这些场景里"差之毫厘谬以千里"，向量相似度可能把不相关的条款混进来，推理式检索能更精准地定位。

不想维护向量数据库的团队。 向量数据库的运维成本被低估了——分片、备份、索引更新、版本升级，每一样都不轻松。如果你的团队没有专门的 infra 人力，PageIndex 的架构更友好。

文档结构清晰的场景。 如果文档本身就是结构化的（API 文档、产品手册、规范文档），PageIndex 的结构化索引能发挥最大优势。

PageIndex 不是要"取代"向量 RAG，而是提供了一条替代路径。

2025 年 RAG 的关键词是"向量数据库"。2026 年可能会变成"检索策略的多元化"。向量 RAG 适合大规模、低成本、可接受一定误差的场景。PageIndex 适合小规模、高精度、愿意为准确度支付额外成本（推理时间和 API 费用）的场景。

如果你现在的向量 RAG 效果不理想，尤其是经常检索出不相关的内容，PageIndex 值得试一下。但如果你目前的向量 RAG 跑得挺好，没必要为了追新而迁移——工具是为你服务的，不是让你为它服务的。

主要来源：