PDF 中图表的解析探究

PDF 中图表的解析探究

  • 0. 引言
  • 1. 开源方案探究

0. 引言

一直以来,对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格,这篇文章主要记录了对表格的探究。还有,我个人主要做日本项目,探究时主要是以日语为主。

1. 开源方案探究

RAGFlow出品的Deepdoc

面向中文,有一个开源方案非常不错,RAGFlow出品的Deepdoc,它的项目中有多个对不同文档的多个文档解析器,其中就有面向pdf的pdf_parser。

测试了一下日文的识别能力,结果并不理想,也解析了一部分代码,代码中有很多处理都是面向中文的。

所以,RAGFlow出品的Deepdoc并不适合日文的处理。

在这里插入图片描述
LangChain出品的PyMuPDFLoader

简单来说,就是读取文档中文字,无法保留文章中表格的信息。

NVIDIA出品的multimodal

没有key,测试不了。简单解析了下架构和代码,还是有很多参考性的。

在这里插入图片描述

unstructured项目

这个项目很有意思,使用partition函数,可以自动解释很多格式的文档,也包括pdf。

解析了部分代码后,发现这个项目有对pdf文章中表格的处理,也可以把pdf中表格数据转换成markdown和html,效果上也达到60-70分左右。

gptpdf项目

这个项目是将pdf文档的每一页都存成一张图片,并且通过画红框,将不同的区域区分出来,然后让多模态模型进行解析,表格时,返回markdown格式。

如果使用gpt-4o或者claude的话,效果很不错,即使token消耗比较大。

继续

使用多模态模型处理这种表格数据,对token的消耗非常大。

在这里插入图片描述

综上所述,现在还没有完美方案,接下来,就尝试自己做一套吧。
自己做时,发现有很多细节需要考虑,

  • 如果表格跨页了怎么处理
  • 跨页后的表格是否有表头
  • 跨页后的表格是否和上一页是同一行
  • 等等

把基础的功能实现后,先试着突破了一下跨页问题,大部分问题已经基本解决。截图如下,


先写到这吧,后续继续探索。

Reference & Thanks:

  • https://python.langchain.com/v0.2/docs/how_to/document_loader_pdf/
  • https://github.com/infiniflow/ragflow/blob/main/deepdoc/README.md
  • https://github.com/Unstructured-IO/unstructured
  • https://github.com/CosmosShadow/gptpdf
  • https://github.com/NVIDIA/GenerativeAIExamples/tree/main/experimental/multimodal_assistant

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MFC Ribbon菜单 - 中英文实时切换方法

简介 最近在搞一个老外的项目,本来谈的好好的,纯英文界面。项目接近尾声了,又提出了中英文实时切换的新需求,没办法就只能想办法,毕竟客户最大嘛。 实现方法 还好本来的ribbon英文菜单不复杂,就用纯C编码…

Android上如何使用perfetto分析systrace

Android上如何使用perfetto分析systrace Perfetto 是一个用于性能分析的工具,提供了对 Android 系统内部工作情况的详细视图。它可以用来替代传统的 systrace 工具,提供更加全面的性能分析功能。以下是如何使用 Perfetto 分析 Systrace 数据的详细指南&…

粉丝问我:大龄干运维还有出路吗?

这兄弟: 18年参加培训班,培训的java,结果学的不好。又去机构学了linux云计算,去做了运维,19年去一家网络公司做了idc,可以说这两年自己不努力,什么都没学到,基本等于零。 我现在就…

Python轻松添加行编号到Word文档及删除行编号

Word文档中的行号(行编号)功能是对于精细化的文档编辑以及解析非常有用的功能。添加行号能够极大地提升文档的可读性和定位效率,尤其是在需要引用特定行内容时,为读者提供了清晰的指引,避免了不必要的混淆和误解。然而…

Java BigInteger 类

目录 BigInteger 1. 如何获取一个BigInteger类型的对象? (1)构造方法 (2)静态方法 2. 常用方法 BigInteger 可以用来表示很大很大的数,有多大都可以。通过创建对象调用相应的方法。详见:…

【深度学习】本地运行 GraphRAG + Ollama

随着人工智能不断革新各个行业,对高效且经济的解决方案的需求日益增长。GraphRAG Local Ollama 应运而生,它是一款强大的 Microsoft GraphRAG 改进版,集成了使用 Ollama 下载的本地模型。这种改进让您可以告别昂贵的 OpenAPI 模型&#xff0c…

45、tomcat+课后实验

tomcat 1、tomcat tomcat和php一样,都是用来处理动态页面的。 tomcat也可以作为web应用服务器,开源的。 php .php tomcat .jsp nginx .html tomcat 是用Java代码写的程序,运行的是Java的web应用程序。 tomcat的特点和功能&#xff1a…

前端调试技巧(npm Link,vscode调试,浏览器调试等)

Npm Link 功能: 在本地开发npm模块的时候,我们可以使用npm link命令,将npm 模块链接到对应的运行项目中去,方便地对模块进行调试和测试 断点调试 vscode调试 Debug Vue2 Project 目标:在VSCode中调试项目代码…

DockerFile文件解析

DockerFile 要研究自己如何做一个镜像,而且微服务项目打包上云部署,Docker就是最方便的。 微服务打包成镜像,任何装了Docker的地方,都可以下载使用,极其的方便。 流程:开发应用>DockerFile>打包为…

vue3 高德地图api加载热力图及关闭 JSAPI v1.4.15

高德地图api加载天地图和2D热力图及关闭 JSAPI v1.4.15 地图API地址 [http://lbs.tianditu.gov.cn/server/MapService.html](http://lbs.tianditu.gov.cn/server/MapService.html)高德地图2D热力图地址 [https://lbs.amap.com/demo/loca-api/demos/loca_heatmap/loca_heatmap_…

负载均衡-轮询-两种简易实现

1、描述 下游可用的服务器目前有5个(node),设计一个方法,方法没有任何参数,采用轮询的方式返回其中一个node; 2、使用环形链表 每次取下一个node即可。注意:需要保证线程安全! // …

安泰高压功率放大器主要应用场景有哪些

高压功率放大器是一种专门设计用于处理高电压信号并提供大功率输出的设备。它们在各种领域中发挥着重要作用,以下是它们的主要应用场景和特点。 一、医疗设备 医疗成像:高压功率放大器在医疗成像设备中扮演关键角色,例如X射线设备和CT扫描仪。…

C++语法提高B-hook机制

Hook 机制 Hook 机制 是一种用于拦截和处理系统事件或函数调用的方法。通过 Hook 机制,程序可以在特定的事件发生时或函数调用之前、之后进行自定义操作。Hook 机制广泛应用于调试、性能监控、安全审计、功能扩展等领域。 Hook 机制的类型及实现方法 1. 消息 Hoo…

【启明智显分享】乐鑫HMI方案4.3寸触摸串口屏应用于称重测力控制仪表

称重测力控制仪表是将称重传感器信号(或再通过重量变送器)转换为重量数字显示,并可对重量数据进行传输、储存、统计、打印的电子设备,常用于工农业生产中的自动化配料,称重,以提高生产效率。随着工业化的发…

STM32F103RC使用HAL库对FLASH的擦除与写入

目录 STM32F103RC使用HAL库对FLASH的擦除与写入(代码模块) 一、芯片FLASH简介 二、FALSH的擦除 三、FALSH的写入 STM32F103RC使用HAL库对FLASH的擦除与写入(代码模块) 一、芯片FLASH简介 stm32f103rc芯片的flash大小为256KB&…

TC4056A 1A线性锂离子电池充电器芯片IC

产品描述 TC4056A是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器。其底部带有散热片的ESOP8/DIP8封装与较少的外部元件数目使得TC4056A成为便携式应用的理想选择TC4056A可以适合USB电源和适配器电源工作。 由于采用了内部PMOSFET架构,加…

《ElementUI/Plus 基础知识》el-tree 之修改可拖拽节点的高亮背景和线

前言 收到需求,PM 觉得可拖拽节点的高亮背景和线样式不明显!CSS 样式得改! 注意:下述方式适用于ElementUI el-tree 和 ElementPlus el-tree! 修改 拖拽被叠加节点的背景色和文字 关键类名 is-drop-inner .el-tree…

从机器语言到现代编程语言的飞跃

在人类追求自动化与智能化的道路上,编程语言作为连接人类思维与计算机执行能力的桥梁,经历了从原始到现代的巨大飞跃。本文将带您穿越时间的长河,探索编程语言从最初的机器语言到如今多样化、高级化的演变历程。 机器语言与汇编语言&#xf…

C++语法提高A-字节对齐

字节对齐 字节对齐(Byte Alignment) 是计算机内存管理中的一个重要概念,指的是数据在内存中存储时,其地址应该是某个特定字节数的整数倍。不同的处理器和操作系统可能要求不同的对齐方式,以提高数据访问效率和保证正确…

Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装

Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装 1、昨日内容回顾2、今日内容预告3、ES的常见术语4、索引管理4.1 查看索引4.2 创建索引4.3 修改索引4.4 删除索引4.5 索引别名4.6 关闭索引4.7 打开…