PageIndex:构建无需切块向量化的 Agentic RAG

引言

你是否对长篇专业文档的向量数据库检索准确性感到失望?传统的基于向量的RAG系统依赖于语义相似性而非真正的相关性。但在检索中,我们真正需要的是相关性——这需要推理能力。当处理需要领域专业知识和多步推理的专业文档时,相似度搜索常常不尽人意。

基于推理的RAG提供了更好的选择:让大语言模型能够思考推理,找到最相关的文档部分。受AlphaGo启发,Vectify AI提出使用树搜索来执行结构化文档检索。

PageIndex 是一个文档索引系统,它从长文档构建搜索树结构,为基于推理的RAG做好准备。

由Vectify AI开发。

PageIndex是什么

PageIndex能将冗长的PDF文档转换为语义树结构,类似于*“目录”*但专为大语言模型(LLMs)优化。
它特别适用于:财务报告、监管文件、学术教科书、法律或技术手册,以及任何超出LLM上下文限制的文档。

主要特点

  • 层次树结构
    让大语言模型能够逻辑性地遍历文档——就像一个智能的、为LLM优化的目录。

  • 精确页面引用
    每个节点都包含其摘要和开始/结束页面的物理索引,实现精准检索。

  • 无需人为分块
    不使用任意分块。节点遵循文档的自然结构。

  • 适用于大规模文档
    设计用于轻松处理数百甚至上千页的文档。

PageIndex格式

以下是输出示例。查看更多示例文档和生成的树结构。

...
{"title": "金融稳定性","node_id": "0006","start_index": 21,"end_index": 22,"summary": "美联储...","nodes": [{"title": "监测金融脆弱性","node_id": "0007","start_index": 22,"end_index": 28,"summary": "美联储的监测..."},{"title": "国内和国际合作与协调","node_id": "0008","start_index": 28,"end_index": 31,"summary": "2023年,美联储与..."}]
}
...

其实看到这里,我们会发现RAG之前很多框架或者算法都有类似的思想:

  • 例如LlamaIndex的Node实现
  • 比如Raptor的层级聚类
  • 还有Mineru的PDF转换生成Markdown,然后我们可以解析成类似具有章节信息的json数据

那PageIndex的亮点在哪里呢,其实在最后一部分“使用PageIndex进行基于推理的RAG”的实现,相比之前的Advanced和Modular RAG,Agentic RAG更加智能,接着我们往下看怎么实现的?

使用方法

按照以下步骤从PDF文档生成PageIndex树结构。

1. 安装依赖项

pip3 install -r requirements.txt

2. 设置OpenAI API密钥

在根目录创建一个.env文件并添加你的API密钥:

CHATGPT_API_KEY=你的openai密钥

3. 对PDF运行PageIndex

python3 run_pageindex.py --pdf_path /path/to/your/document.pdf

你可以通过额外的可选参数自定义处理过程:

--model                 使用的OpenAI模型 (默认: gpt-4o-2024-11-20)
--toc-check-pages       检查目录的页数 (默认: 20)
--max-pages-per-node    每个节点的最大页数 (默认: 10)
--max-tokens-per-node   每个节点的最大token数 (默认: 20000)
--if-add-node-id        添加节点ID (yes/no, 默认: yes)
--if-add-node-summary   添加节点摘要 (yes/no, 默认: no)
--if-add-doc-description 添加文档描述 (yes/no, 默认: yes)

云API (测试版)

不想自己部署?试试Vectify AI的PageIndex托管API。托管版本使用Vectify AI自定义的OCR模型更准确地识别PDF,为复杂文档提供更好的树结构。
在这个表单留下你的邮箱,免费获得1,000页处理额度。

案例研究:Mafin 2.5

Mafin 2.5是一个专为财务文档分析设计的最先进基于推理的RAG模型。它基于PageIndex构建,在FinanceBench基准测试中达到了惊人的98.7%准确率——显著优于传统的基于向量的RAG系统。

PageIndex的分层索引使得能够精确导航和提取复杂财务报告(如SEC文件和财报披露)中的相关内容。

👉 查看完整基准测试结果,了解详细比较和性能指标。

使用PageIndex进行基于推理的RAG

使用PageIndex构建基于推理的检索系统,无需依赖语义相似度。非常适合需要细微区分的领域特定任务。

🔖 预处理工作流示例

  1. 使用PageIndex处理文档,生成树结构。
  2. 将树结构及其对应的文档ID存储在数据库表中。
  3. 将每个节点的内容存储在单独的表中,通过节点ID和树ID进行索引。

🔖 基于推理的RAG框架示例

  1. 查询预处理:
    • 分析查询以确定所需知识
  2. 文档选择:
    • 搜索相关文档及其ID
    • 从数据库获取相应的树结构
  3. 节点选择:
    • 搜索树结构以识别相关节点
  4. LLM生成:
    • 从数据库获取所选节点的相应内容
    • 格式化并提取相关信息
    • 将组装的上下文与原始查询一起发送给LLM
    • 生成有依据的回答

🔖 节点选择的示例提示

prompt = f"""
给你一个问题和一个文档的树结构。
你需要找出所有可能包含答案的节点。问题: {question}文档树结构: {structure}请用以下JSON格式回复:
{{"thinking": <关于在哪里寻找的推理过程>,"node_list": [node_id1, node_id2, ...]
}}
"""

看到合理我们自然明白了,PageIndex不需要切块向量是因为通过将文档转换为节点,然后用大模型进行选择,之前RAG是检索+排序=现在的LLM Judge。

同时这个问题就是,当多文档或者文档篇幅比较多的时候,LLM去做选择成本比较高的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/76802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu20.04 远程桌面Xrdp方式

1&#xff0c;Ubuntu 安装Xrdp 方法 1.1&#xff0c;安装xrdp sudo apt install xrdp 1.2&#xff0c;检查xrdp状态 sudo systemctl status xrdp 1.3&#xff0c;加入ssl-cert sudo adduser xrdp ssl-cert 1.4&#xff0c;重启xrdp服务 sudo systemctl restart xrdp 最后…

Java学习手册:RESTful API 设计原则

一、RESTful API 概述 REST&#xff08;Representational State Transfer&#xff09;即表述性状态转移&#xff0c;是一种软件架构风格&#xff0c;用于设计网络应用程序。RESTful API 是符合 REST 原则的 Web API&#xff0c;通过使用 HTTP 协议和标准方法&#xff08;GET、…

Spring Boot 核心注解全解:@SpringBootApplication背后的三剑客

大家好呀&#xff01;&#x1f44b; 今天我们要聊一个超级重要的Spring Boot话题 - 那个神奇的主类注解SpringBootApplication&#xff01;很多小伙伴可能每天都在用Spring Boot开发项目&#xff0c;但你真的了解这个注解背后的秘密吗&#xff1f;&#x1f914; 别担心&#x…

weibo_har鸿蒙微博分享,单例二次封装,鸿蒙微博,微博登录

weibo_har鸿蒙微博分享&#xff0c;单例二次封装&#xff0c;鸿蒙微博 HarmonyOS 5.0.3 Beta2 SDK&#xff0c;原样包含OpenHarmony SDK Ohos_sdk_public 5.0.3.131 (API Version 15 Beta2) &#x1f3c6;简介 zyl/weibo_har是微博封装使用&#xff0c;支持原生core使用 &a…

tomcat集成redis实现共享session

中间件&#xff1a;Tomcat、Redis、Nginx jar包要和tomcat相匹配 jar包&#xff1a;commons-pool2-2.2.jar、jedis-2.5.2.jar、tomcat-redis-session-manage-tomcat7.jar 配置Tomcat /conf/context.xml <?xml version1.0 encodingutf-8?> <!--Licensed to the A…

JavaScript 扩展Array类方法实现数组求和

题目描述&#xff1a;使用原型对象扩展Array类&#xff0c;实现返回数字型数组的和 <script>const arr [1,2,3,4,5,6]Array.prototype.sum function(){return this.reduce((prev,item)>prev item,0)}console.log(arr.sum())</script>求和函数中this 指向调用…

中间件--ClickHouse-11--部署示例(Linux宿主机部署,Docker容器部署)

一、Linux宿主机部署 1、环境准备 操作系统&#xff1a;推荐使用 CentOS 7/8 或 Ubuntu 18.04/20.04。硬件要求&#xff1a; 至少 2 核 CPU 和 4GB 内存。足够的磁盘空间&#xff08;根据数据量评估&#xff09;。CPU需支持SSE4.2指令集&#xff08;可通过以下命令检查&#…

鸿蒙NEXT开发权限工具类(申请授权相关)(ArkTs)

import abilityAccessCtrl, { Permissions } from ohos.abilityAccessCtrl; import { bundleManager, common, PermissionRequestResult } from kit.AbilityKit; import { BusinessError } from ohos.base; import { ToastUtil } from ./ToastUtil;/*** 权限工具类&#xff08;…

LVGL学习(二)(lv_label,lv_btn)

3-1_标签(lv_label) 一、标签的组成&#xff08;盒子模型&#xff09;​​ 标签由三个核心模块构成&#xff0c;类似便签纸的​​分层设计​​&#xff1a; ​​LV_PART_MAIN&#xff08;主体层&#xff09;​​ ​​功能​​&#xff1a;相当于便签纸的"纸面"&…

深度剖析神经网络:从基础原理到面试要点(二)

引言 在人工智能蓬勃发展的今天&#xff0c;神经网络作为其核心技术之一&#xff0c;广泛应用于图像识别、自然语言处理、语音识别等众多领域。深入理解神经网络的数学模型和结构&#xff0c;对于掌握人工智能技术至关重要。本文将对神经网络的关键知识点进行详细解析&#xf…

【java+Mysql】学生信息管理系统

学生信息管理系统是一种用于管理学生信息的软件系统&#xff0c;旨在提高学校管理效率和服务质量。本课程设计报告旨在介绍设计和实现学生信息管理系统的过程。报告首先分析了系统的需求&#xff0c;包括学生基本信息管理、成绩管理等功能。接着介绍了系统的设计方案&#xff0…

Linux mmp文件映射补充(自用)

addr一般为NULL由OS指明&#xff0c;length所需长度&#xff08;4kb对齐&#xff09;&#xff0c;prot&#xff08;权限&#xff0c;一般O_RDWR以读写&#xff09;&#xff0c; flag&#xff08;MAP_SHARED(不刷新到磁盘上&#xff0c;此进程独有)和MAP_PRIVATE&#xff08;刷新…

Nginx openresty web服务 与 Go 原生web服务性能对比

1 概述 Nginx采用的是IO复用模型&#xff0c;能处理超高并发。 Go语言采用协程&#xff0c;能轻量级的处理超高并发。 那么在不考虑业务逻辑复杂的前提下&#xff0c;即假如将Nginx和Go都提供一个/test接口&#xff0c;并在接口逻辑中都只是让其做20毫秒的耗时操作&#xff0c…

[创业之路-377]:企业法务 - 有限责任公司与股份有限公司的优缺点对比

有限责任公司&#xff08;简称“有限公司”&#xff09;与股份有限公司&#xff08;简称“股份公司”&#xff09;是我国《公司法》规定的两种主要公司形式&#xff0c;二者在设立条件、治理结构、股东权利义务等方面存在显著差异。以下从核心特征、设立条件、治理结构、股东权…

QEMU源码全解析 —— 块设备虚拟化(21)

接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(20) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 特此致谢! 上一回开始解析blockdev_init函数,讲到了其中调用的blk_new_open函数,该函数的作用…

蓝桥杯中的知识点

总结&#xff1a; 这次考的并不理想 比赛前好多知识点遗漏 但到此为止已经结束了 mod 是 模运算&#xff08;Modulo Operation&#xff09;的缩写&#xff0c;表示求两个数相除后的 余数 10mod31 (a % b) &#xff08;7%21&#xff09; 1e9代表1乘以10的9次方&#xff0c…

批量替换多个 Word 文档中的指定图片

在 Word 文档中&#xff0c;我们可以插入各种各样的图片&#xff0c;比如插入 logo、插入设计图、施工图等等。在某些情况下&#xff0c;我们也会碰到需要将 Word 文档中某张图片替换成其它图片的场景&#xff0c;比如将旧的 Logo 替换成新的 Logo。当我们有大量的 Word 文档需…

基于微信小程序的中医小妙招系统的设计与实现

hello hello~ &#xff0c;这里是 code袁~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f981;作者简介&#xff1a;一名喜欢分享和记录学习的在校大学生…

Java 8 新特性深度解析:现代编程的转折点

精心整理了最新的面试资料和简历模板&#xff0c;有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 Java 8 是 Java 发展史上的重要里程碑&#xff0c;它引入了函数式编程范式、增强了集合处理能力&#xff0c;并彻底革新了日期时间处理方式。本文将通过代码示…

鹧鸪云平台实时追踪任务进度的核心机制

一、‌三维可视化监控‌ BIMGIS融合建模‌&#xff1a;通过无人机测绘与三维建模技术生成施工场地数字孪生模型&#xff0c;支持实时查看各标段三维模型与施工进度的匹配度&#xff0c;偏差超过5%自动触发预警。 进度匹配度分析‌&#xff1a;中央数据中台整合施工规划、资源…