RAG (Retrieval-Augmented Generation) существует уже несколько лет. Большинство делают это одинаково: чанки документов → векторизация → хранение в векторной базе данных → запрос с семантическим поиском по сходству → подача наиболее похожих фрагментов в LLM.
У этого подхода есть давняя жалоба: векторное сходство не равно информационной релевантности. Два текста, близкие в векторном пространстве, не обязательно логически связаны.
PageIndex хочет попробовать другой подход.
Что это
PageIndex — это система «документного индекса» с открытым исходным кодом от VectifyAI,主打 RAG без векторов, на основе рассуждений (Vectorless, Reasoning-based RAG).
Основная идея: вместо векторизации строить структурированные индексы для документов. При запросе вместо поиска «наиболее похожих» фрагментов через векторное сходство, модель рассуждает о том, какие части должны быть извлечены, затем точно извлекает по индексу.
30 800 звёзд, рост на 4555 за неделю. 284 недавних коммита, последнее обновление 20 часов назад.
Отличие от традиционного векторного RAG
| Традиционный векторный RAG | PageIndex | |
|---|---|---|
| Индексация | Векторизация + векторная БД | Структурированный документный индекс |
| Поиск | Семантическое сходство | Поиск на основе рассуждений |
| Зависимости | Нужна векторная БД | Не нужна векторная БД |
Проще говоря: превращает «поиск» из «задачи сопоставления» в «задачу рассуждения».
Плюсы и минусы
Преимущества:
- Не нужно развёртывать и обслуживать векторную базу данных
- Для сценариев, требующих точного сопоставления (юридические положения, технические документы), поиск на основе рассуждений может быть точнее
- Обновления индекса быстрее
Издержки:
- Каждый запрос требует вызова LLM для рассуждения — задержка и стоимость выше
- Если способность модели к рассуждению недостаточно сильна, качество поиска снижается
Для кого
Профессиональные области, требующие высокоточного поиска. Юриспруденция, медицина, технические документы.
Команды, не желающие обслуживать векторные базы данных. Операционные расходы векторных БД недооценены.
Моя оценка
PageIndex не пытается «заменить» векторный RAG — он предлагает альтернативный путь.
Ключевое слово RAG 2025 года — «векторная база данных». 2026 год может стать «диверсификацией стратегий поиска».
Основные источники:
- GitHub - VectifyAI/PageIndex (анализ репозитория)
- GitHub Trending Weekly (отслеживание популярности)
- Сравнение архитектуры традиционного векторного RAG