🚀 PageIndex - умный индекс документов для reasoning-RAG (без векторов) PageIndex от VectifyAI - open-source система, которая помогает работать с длинн…
PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.
В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.
📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска
🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа
🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев
PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.
▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5