PageIndex: ベクトルデータベースを使わないRAG——3万スターの背後にある「推論ベース検索」ワークフロー

RAG（検索強化生成）は数年使われている。ほとんどの人のやり方は同じ：ドキュメントをチャンク化 → ベクトル化 → ベクトルデータベースに保存 → クエリ時に意味的類似度マッチング → 最も類似したフラグメントをLLMに投入。

このパイプラインにはずっと批判があった：ベクトル類似度は情報の関連性とイコールではない。 2つのテキストがベクトル空間で近いことと、論理的に関連していることは別問題だ。

PageIndexは違うアプローチを試したい。

何か

PageIndexはVectifyAIがオープンソース化した「ドキュメントインデックス」システム、ベクトルなし・推論ベースのRAG（Vectorless, Reasoning-based RAG）を主打とする。

コアアイデア：ベクトル化せず、ドキュメントに構造化インデックスを構築。クエリ時、ベクトル類似度で「最も似ている」フラグメントを探すのではなく、モデルにどの部分を检索すべきか推論させ、インデックスで正確に抽出する。

30,800スター、今週4,555増加。直近284コミット、最終更新は20時間前。プロジェクトのアクティビティは良好。

要するに：「検索」环节を「マッチング問題」から「推論問題」に変えた。

メリット：

コスト：

高精度检索が必要な専門領域。 法律、医療、技術ドキュメント——これらのシナリオでは「差之毫厘谬以千里」。

ベクトルデータベースをメンテナンスしたくないチーム。 ベクトルDBの運用コストは過小評価されている。

PageIndexはベクトルRAGを「代替」しようとしているのではなく、代替パスを提供している。

2025年のRAGのキーワードは「ベクトルデータベース」。2026年は「検索戦略の多様化」になるかもしれない。

主要ソース：