【Ragflow】11. 文件解析流程分析/批量解析实现

概述

本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。

文件解析流程

文件解析的请求处理流程大致如下:

1.前端上传文件,通过v1/document/run接口,发起文件解析请求

2.后端api\apps\document_app.pyrun函数接收请求,校验用户权限,处理文档解析运行信息,创建新的任务队列

3.后端api\db\services\task_service.pyqueue_tasks函数进一步根据文档根据文档类型和页数,将文档分割成多个子任务,并通过解析器进行解析。

4.解析器在deepdoc\parser路径下,对于docx、excel、pdf等不同格式的文件都有不同的解析策略。其中,pdf的解析策略最为复杂,因为要设计需要先转成图像,再进行ocr文本识别。

5.解析完成后,会生成文本块,并构建索引,存储到向量数据库。

在解析过程的同时,前端同时还会定时向v1/document/list这个接口发起轮询,以获取解析的进度信息。

文件解析模型

ragflow的文件解析采用了名为deepdoc的模型,该模型的相关资料并不多,是其自研的模型,在hugging face上公布了具体的模型权重:

hf地址:https://huggingface.co/InfiniFlow/deepdoc

从模型体积上看,其采用的模型并不大,但对不同的任务,会采用不同的模型,比如OCR(光学字符识别)、TSR(表格结构识别)、DLA(文档布局分析)等多种解析任务。

文件解析加速实验

由于解析模型都是onnx形式的模型,因此,如果使用gpu进行解析,理论上可以显著加速解析速度。

于是下面做个实验,通过docker-compose-gpu.yml文件启动容器,使其能够访问外部gpu。

启动命令:

docker compose -f docker-compose-gpu.yml up -d

对于一篇学位论文的pdf文件,未使用gpu,通过docker-compose.yml进行解析,花费时间约10分钟。

使用gpu配置启动容器,对相同文件进行解析,发现cpu多核全部拉满,gpu仍然未工作,因此速度基本无差别。

说明仅通过docker-compose-gpu.yml似乎无法成功利用上gpu资源,此点还需进一步论证。

观察docx和pdf的解析器设置,docx只需要解析纯文本信息,而无需进行ocr处理,因此理论解析速度会比pdf文件快很多,下面进行一个实验,比较word文件和pdf文件的解析日志,内容如下:

word格式文件解析日志:

进度:
15:36:34 Task has been received.
15:36:34 Page(1~100000001): Start to parse.
15:36:34 Page(1~100000001): Finish parsing.
15:36:35 Page(1~100000001): Generate 16 chunks
15:36:53 Page(1~100000001): Embedding chunks (18.57s)
15:36:55 Page(1~100000001): Indexing done (1.42s). Task done (20.93s)

pdf格式文件解析日志:

开始于:
Fri, 04 Apr 2025 13:45:56 GMT
持续时间:
599.00 s
进度:
13:45:56 Task has been received.
13:46:29 Page(1~13): OCR started
13:46:36 Page(1~13): OCR finished (7.77s)
13:46:56 Page(1~13): Layout analysis (19.70s)
13:46:56 Page(1~13): Table analysis (0.00s)
13:46:56 Page(1~13): Text merged (0.00s)
13:47:07 Page(1~13): Generate 27 chunks
13:48:39 Page(1~13): Embedding chunks (92.02s)
13:48:43 Page(1~13): Indexing done (3.77s). Task done (166.60s)
....(略去多个子任务解析过程,和上述类似)

word文件的确比pdf文件解析速度快很多,因此,如果想加快解析速度,可以预先通过其他方式,将pdf文件的文本信息摘取出来,转成其它格式。

文档批量解析

经过上述分析后,实际上可以通过两个解析接口+文件上传接口,实现文档的批量解析。

发现已有一个代码仓库实现了该功能:

仓库地址:https://github.com/Samge0/ragflow-upload

下面是具体操作步骤:

1.开启ragflow服务
需保持ragflow服务处于正常运行状态

2.克隆仓库代码

git clone https://github.com/Samge0/ragflow-upload.git

3.安装依赖

pip install -r requirements.txt

4.设置配置项
ragflows/configs.demo.py改成ragflows/configs.py

配置文件主要修改以下几点:

  • API_URL:ragflow的api地址,默认值:http://localhost:80/v1,如果是本机部署,无需修改

  • AUTHORIZATION:ragflow的api鉴权token,可以从F12网站开发者工具,查看请求的标头获取

  • DIFY_DOC_KB_ID:ragflow的知识库id,直接在知识库页面,查看url尾缀dataset?id的具体值获取

  • KB_NAME:ragflow的知识库名称,设置为需要上传的知识库名称

  • DOC_DIR:本地上传文件夹路径,待上传文件的存储位置,设置为需要上传的实际文件夹路径

5.启动脚本

运行命令

python -m ragflows.main

这个脚本的优势在于,它并不是多个文件批量解析,而是单个文件解析完之后,再执行下一个文件进行解析。这样可以有效避免多线程解析时,线程阻塞导致的文件解析过程中断。

拓展方向

1.进一步支持GPU解析

本文尝试了一下使用docker运行gpu环境,但发现文件解析时,并不能有效利用gpu设备。后续可对此进行进一步研究,以更好地利用gpu资源实现解析过程加速。

2.图像识别存储

目前文档解析仍然是针对文本信息,并未涉及图像信息的提取和关联,此点有待进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年零知识证明(ZK)研究进展

Sumcheck 整个领域正在转向更多地依赖于 Sumcheck Protocol Sumcheck是用于验证多项式承诺的协议,常用于零知识证明(ZKP)中,尤其是在可验证计算和扩展性上。它的主要目的是通过对多项式进行分段检查,从而保证某个多项式在给定输入上的正确性,而不需要直接计算出整个多项…

thinkphp每条一级栏目中可自定义添加多条二级栏目,每条二级栏目包含多个字段信息

小程序客户端需要展示团购详情这种结构的内容,后台会新增多条套餐,每条套餐可以新增多条菜品信息,每条菜品信息包含菜品名称,价格,份数等字段信息,类似于购物网的商品多规格属性,数据表中以json类型存储,手写了一个后台添加和编辑的demo 添加页面 编辑页面(json数据…

Vue3引入ElementPlus

1.ElementPlus属于第三方的应用框架,官网地址:设计 | Element Plus ,学习可以参考该网站的指南。 2.安装element-plus ,指令为:npm install element-plus --save 3.引入elementplus的全局,组件、样式、图标…

react+antd封装一个可回车自定义option的select并且与某些内容相互禁用

需求背景 一个select框 现在要求可多选 并且原有一个any的选项 其他选项为输入后回车自己增加 若选择了any 则其他选项不可选择反之选择其他选项any不可选择 并且回车新增时也不可直接加入到选中数组只加入到option内 并且不可重复添加新内容 实现过程 <Form.Item …

Oracle数据库数据编程SQL<8 文本编辑器Notepad++和UltraEdit(UE)对比>

首先&#xff0c;用户界面方面。Notepad是开源的&#xff0c;界面看起来比较简洁&#xff0c;可能更适合喜欢轻量级工具的用户。而UltraEdit作为商业软件&#xff0c;界面可能更现代化&#xff0c;功能布局更复杂一些。不过&#xff0c;UltraEdit支持更多的主题和自定义选项&am…

【学Rust写CAD】30 Alpha256结构体补充方法(alpha256.rs)

源码 impl Alpha256 {#[inline]pub fn alpha_mul(&self, x: u32) -> u32 {let mask 0xFF00FF;let src_rb ((x & mask) * self.0) >> 8;let src_ag ((x >> 8) & mask) * self.0;(src_rb & mask) | (src_ag & !mask)} }代码分析 功能 输…

Linux systemd 服务全面详解

一、systemd 是什么&#xff1f; systemd 是 Linux 系统的现代初始化系统&#xff08;init&#xff09;和服务管理器&#xff0c;替代传统的 SysVinit 和 Upstart。它不仅是系统启动的“总指挥”&#xff0c;还统一管理服务、日志、设备挂载、定时任务等。 核心作用 服务管理…

jetson AGX orin--ARM64 换源报错Packages 404 Not Found [IP: 2402:f000:1:400::2 443]

问题 原因&#xff1a; ARM64结构不能使用X86结构的源&#xff0c;清华源不完全支持ARM64。使用下面这个源 sudo vim /etc/apt/sources.list 删掉原来的&#xff0c;改成这个 # ARM64 架构专用源 deb [archarm64] http://ports.ubuntu.com/ubuntu-ports focal main restrict…

ARM 性能分析工具:Streamline

文章目录 1. 前言2. 安装2.1 在 Host 安装 Arm Performance Studio2.2 在 ARM 目标平台安装 gatord 3. 使用3.1 离线方式3.2 在线方式3.3 添加符号表 4. 参考资料 1. 前言 限于作者能力水平&#xff0c;本文可能存在谬误&#xff0c;因此而给读者带来的损失&#xff0c;作者不…

React: hook相当于函数吗?

一、Hook 是一个函数&#xff0c;但不仅仅是函数 函数的本质 Hook 确实是一个 JavaScript 函数&#xff0c;例如 useState、useEffect 或自定义 Hook 都是函数。它们可以接受参数&#xff08;如初始状态值或依赖项数组&#xff09;&#xff0c;并返回结果&#xff08;如状态值和…

Android学习总结之算法篇三(排序)

归并排序原理 归并排序&#xff08;Merge Sort&#xff09;是一种采用分治法&#xff08;Divide and Conquer&#xff09;的排序算法&#xff0c;其基本思想是将一个大问题分解为多个小问题&#xff0c;分别解决这些小问题&#xff0c;然后将小问题的解合并起来得到原问题的解…

Python列表(List)深度解析

列表(List)是Python中最基础且强大的数据结构之一&#xff0c;但它的底层实现和特性远比表面看起来复杂。本文将深入探讨列表的各个方面。 1. 列表基础特性 1.1 可变序列类型 lst [1, 2, 3] lst[1] 20 # 可变性1.2 异构容器 mixed [1, "hello", 3.14, [1, 2]…

Java基础-设计模式详解

摘要&#xff1a;设计模式是软件工程中解决常见问题的经典方案。本文结合Java语言特性&#xff0c;深入解析常用设计模式的核心思想、实现方式及实际应用场景&#xff0c;帮助开发者提升代码质量和可维护性。 一、设计模式概述 1.1 什么是设计模式&#xff1f; 设计模式&…

Docker 构建镜像异常报错解决

报错一&#xff1a; # 启动 SSH Agent eval $(ssh-agent -s)# 添加私钥到 agent (替换为你的实际密钥路径) ssh-add ~/.ssh/id_ed25519# 验证密钥已加载 ssh-add -L# 查看 SSH_AUTH_SOCK 是否设置 echo $SSH_AUTH_SOCK # 应输出类似&#xff1a;/tmp/ssh-XXXXXX/agent.XXXX# 显…

动态规划似包非包系列一>组合总和IIV

目录 题目分析&#xff1a;状态表示&#xff1a;状态转移方程&#xff1a;初始化填表顺序返回值&#xff1a;代码呈现&#xff1a; 题目分析&#xff1a; 状态表示&#xff1a; 状态转移方程&#xff1a; 初始化填表顺序返回值&#xff1a; 代码呈现&#xff1a; class Soluti…

Linux下调试器gdb_cgdb使用

文章目录 一、样例代码二、使用watchset var确定问题原因条件断点 一、样例代码 #include <stdio.h>int Sum(int s, int e) {int result 0;int i;for(i s; i < e; i){result i;}return result; }int main() {int start 1;int end 100;printf("I will begin…

JSON Crack:简化数据可视化的参数编辑器

简介 在当今数据驱动的世界中&#xff0c;JSON&#xff08;JavaScript Object Notation&#xff09;作为一种轻量级的数据交换格式&#xff0c;广泛应用于各种开发和数据分析场景。然而&#xff0c;复杂的JSON数据往往难以阅读和理解&#xff0c;特别是在数据量庞大时&#xf…

PostgreSQL 删除数据库

PostgreSQL 删除数据库 概述 PostgreSQL 是一款功能强大的开源关系型数据库管理系统&#xff0c;它提供了丰富的功能和强大的性能。在数据库管理过程中&#xff0c;有时需要删除不再需要的数据库&#xff0c;以释放资源或进行数据库维护。本文将详细介绍如何在 PostgreSQL 中…

Linux内核物理内存组织结构

一、系统调用sys_mmap 系统调用mmap用来创建内存映射&#xff0c;把创建内存映射主要的工作委托给do_mmap函数&#xff0c;内核源码文件处理&#xff1a;mm/mmap.c 二、系统调用sys_munmap 1、vma find_vma (mm, start); // 根据起始地址找到要删除的第一个虚拟内存区域 vma 2…

Mac强制解锁APP或文件夹

当Mac安装过火绒企业版、云安全访问服务之类的APP需要卸载的时候&#xff0c;会发现需要管理员密码&#xff0c;正常的卸载流程走不下去&#xff0c;直接删除APP&#xff0c;会提示“不能完成此操作&#xff0c;xxx已锁定”的信息&#xff0c;此处就记录一下如何关闭锁定状态&a…