PDF 中图表的解析探究

PDF 中图表的解析探究

  • 0. 引言
  • 1. 开源方案探究

0. 引言

一直以来,对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格,这篇文章主要记录了对表格的探究。还有,我个人主要做日本项目,探究时主要是以日语为主。

1. 开源方案探究

RAGFlow出品的Deepdoc

面向中文,有一个开源方案非常不错,RAGFlow出品的Deepdoc,它的项目中有多个对不同文档的多个文档解析器,其中就有面向pdf的pdf_parser。

测试了一下日文的识别能力,结果并不理想,也解析了一部分代码,代码中有很多处理都是面向中文的。

所以,RAGFlow出品的Deepdoc并不适合日文的处理。

在这里插入图片描述
LangChain出品的PyMuPDFLoader

简单来说,就是读取文档中文字,无法保留文章中表格的信息。

NVIDIA出品的multimodal

没有key,测试不了。简单解析了下架构和代码,还是有很多参考性的。

在这里插入图片描述

unstructured项目

这个项目很有意思,使用partition函数,可以自动解释很多格式的文档,也包括pdf。

解析了部分代码后,发现这个项目有对pdf文章中表格的处理,也可以把pdf中表格数据转换成markdown和html,效果上也达到60-70分左右。

gptpdf项目

这个项目是将pdf文档的每一页都存成一张图片,并且通过画红框,将不同的区域区分出来,然后让多模态模型进行解析,表格时,返回markdown格式。

如果使用gpt-4o或者claude的话,效果很不错,即使token消耗比较大。

继续

使用多模态模型处理这种表格数据,对token的消耗非常大。

在这里插入图片描述

综上所述,现在还没有完美方案,接下来,就尝试自己做一套吧。
自己做时,发现有很多细节需要考虑,

  • 如果表格跨页了怎么处理
  • 跨页后的表格是否有表头
  • 跨页后的表格是否和上一页是同一行
  • 等等

把基础的功能实现后,先试着突破了一下跨页问题,大部分问题已经基本解决。截图如下,


先写到这吧,后续继续探索。

Reference & Thanks:

  • https://python.langchain.com/v0.2/docs/how_to/document_loader_pdf/
  • https://github.com/infiniflow/ragflow/blob/main/deepdoc/README.md
  • https://github.com/Unstructured-IO/unstructured
  • https://github.com/CosmosShadow/gptpdf
  • https://github.com/NVIDIA/GenerativeAIExamples/tree/main/experimental/multimodal_assistant

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MFC Ribbon菜单 - 中英文实时切换方法

简介 最近在搞一个老外的项目,本来谈的好好的,纯英文界面。项目接近尾声了,又提出了中英文实时切换的新需求,没办法就只能想办法,毕竟客户最大嘛。 实现方法 还好本来的ribbon英文菜单不复杂,就用纯C编码…

Python轻松添加行编号到Word文档及删除行编号

Word文档中的行号(行编号)功能是对于精细化的文档编辑以及解析非常有用的功能。添加行号能够极大地提升文档的可读性和定位效率,尤其是在需要引用特定行内容时,为读者提供了清晰的指引,避免了不必要的混淆和误解。然而…

Java BigInteger 类

目录 BigInteger 1. 如何获取一个BigInteger类型的对象? (1)构造方法 (2)静态方法 2. 常用方法 BigInteger 可以用来表示很大很大的数,有多大都可以。通过创建对象调用相应的方法。详见:…

45、tomcat+课后实验

tomcat 1、tomcat tomcat和php一样,都是用来处理动态页面的。 tomcat也可以作为web应用服务器,开源的。 php .php tomcat .jsp nginx .html tomcat 是用Java代码写的程序,运行的是Java的web应用程序。 tomcat的特点和功能&#xff1a…

前端调试技巧(npm Link,vscode调试,浏览器调试等)

Npm Link 功能: 在本地开发npm模块的时候,我们可以使用npm link命令,将npm 模块链接到对应的运行项目中去,方便地对模块进行调试和测试 断点调试 vscode调试 Debug Vue2 Project 目标:在VSCode中调试项目代码…

DockerFile文件解析

DockerFile 要研究自己如何做一个镜像,而且微服务项目打包上云部署,Docker就是最方便的。 微服务打包成镜像,任何装了Docker的地方,都可以下载使用,极其的方便。 流程:开发应用>DockerFile>打包为…

负载均衡-轮询-两种简易实现

1、描述 下游可用的服务器目前有5个(node),设计一个方法,方法没有任何参数,采用轮询的方式返回其中一个node; 2、使用环形链表 每次取下一个node即可。注意:需要保证线程安全! // …

安泰高压功率放大器主要应用场景有哪些

高压功率放大器是一种专门设计用于处理高电压信号并提供大功率输出的设备。它们在各种领域中发挥着重要作用,以下是它们的主要应用场景和特点。 一、医疗设备 医疗成像:高压功率放大器在医疗成像设备中扮演关键角色,例如X射线设备和CT扫描仪。…

【启明智显分享】乐鑫HMI方案4.3寸触摸串口屏应用于称重测力控制仪表

称重测力控制仪表是将称重传感器信号(或再通过重量变送器)转换为重量数字显示,并可对重量数据进行传输、储存、统计、打印的电子设备,常用于工农业生产中的自动化配料,称重,以提高生产效率。随着工业化的发…

TC4056A 1A线性锂离子电池充电器芯片IC

产品描述 TC4056A是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器。其底部带有散热片的ESOP8/DIP8封装与较少的外部元件数目使得TC4056A成为便携式应用的理想选择TC4056A可以适合USB电源和适配器电源工作。 由于采用了内部PMOSFET架构,加…

《ElementUI/Plus 基础知识》el-tree 之修改可拖拽节点的高亮背景和线

前言 收到需求,PM 觉得可拖拽节点的高亮背景和线样式不明显!CSS 样式得改! 注意:下述方式适用于ElementUI el-tree 和 ElementPlus el-tree! 修改 拖拽被叠加节点的背景色和文字 关键类名 is-drop-inner .el-tree…

Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装

Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装 1、昨日内容回顾2、今日内容预告3、ES的常见术语4、索引管理4.1 查看索引4.2 创建索引4.3 修改索引4.4 删除索引4.5 索引别名4.6 关闭索引4.7 打开…

FakeNewsGPT4:通过知识增强的大规模视觉语言模型推进多模态假新闻检测

FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs 1.概述 当前,多模态假新闻的大量涌现导致了显著的分布差异,这一现状亟需我们开发具备广泛适用性的检测器。然而,现有假新闻检测器因特定领域内的训练方式,难以有效获取开放世…

<数据集>Udacity交通目标识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:13239张(实际有15000张,但其中1761张无标签的图片被我去除掉) 标注数量(xml文件个数):13239 标注数量(txt文件个数):13239 标注类别数:11 标注…

护网--1

实验要求: 实现过程: (一)配置防火墙接口: 在防火墙上创建两个子接口:1/0/1.1 1/0/1.2 在浏览器上用视图界面配置接口: 到服务器: 到生产区: 到办公区: 到…

离线下载linux mysql和mysql基本库

下载地址:https://dev.mysql.com/downloads/mysql/ 选择数据库版本,系统,系统版本信息 下载需要的rpm包,传入服务器,使用yum install xxx.rpm安装即可 mysql-community下载地址 https://dev.mysql.com/downloads/my…

专业无线麦克风品牌排行榜,无线麦克风哪个品牌音质最好

在数字化的浪潮中,个人创作与表达的舞台日益宽广。无论是专业的影像工匠、热情四溢的播客主播,亦或是生活点滴的记录者——Vlogger,一套卓越的音频装备是确保声音纯净、无瑕传递给观众的基石。无线领夹麦克风凭借其携带方便、操作简便以及卓越…

ai写作软件哪个好?亲测好用的5款工具分享

一眨眼,初伏就要到来了~办公室内的高温仿佛连空气都凝固了,键盘敲击声似乎都变得沉重而迟缓。在这样的天气下,创意与灵感似乎也躲进了阴凉处,办公效率显然大打折扣。 幸运的是,被我找到了新的应对之策,那便…

FastAPI 学习之路(四十七)WebSockets(三)登录后才可以聊天

之前我们是通过前端自动生成的token信息&#xff0c;这次我们通过注册登录&#xff0c;保存到本地去实现。首先&#xff0c;我们实现一个登录页面&#xff0c;放在templates目录下。 <!DOCTYPE html> <html lang"en"> <head><meta charset&quo…

PHP单商户微店b2c商城微信小程序系统源码

打造专属线上购物空间&#x1f6cd;️ &#x1f680;【开篇&#xff1a;解锁新零售时代新风尚】&#x1f680; 在这个数字化飞速发展的时代&#xff0c;线上购物已成为我们日常生活不可或缺的一部分。对于单商户而言&#xff0c;拥有一个专属的B2C商城微信小程序&#xff0c;…