开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题。

MinerU 和  marker

MinerU 是最新的一个PDF解析工具,专门为RAG创作的文档解析工具。可以看看我的这篇文章,对该解析工具的详细介绍。
最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)-CSDN博客

 marker是开源很久的一个PDF解析工具。目前star 14.5k。地址如下:

https://github.com/VikParuchuri/marker

对比效果

我以一篇财报的PDF为例。财报通常比较复杂,包含表格,表格还不规整,还包括图片。

先说一下结论:MinerU 和  marker 是开源PDF文档解析中能够满足RAG的需求的。它们多多少少有一些问题,但是还能接受。其中两者解析段落已经非常准确了。并且maker是能够把表格解析为md结构的。MinerU的版面分析也很准确,表格定位蛮准确。

二者存在的问题,对比效果如下

对比问题1:PDF-Extract-Kit 图片识别错误

原PDF首页

marker 解析正确

PDF-Extract-Kit 将文本块,识别成了图片。

对比问题2:表格识别问题

原PDF

maker把表格转成了md格式

但是表格的标题行识别错误了。

PDF-Extract-Kit 未对表格做处理

保存为图片

对比问题3:目录识别问题

PDF原文件

maker把目录识别成了表格

PDF-Extract-Kit 目录识别正确

对比问题4:标题识别问题

原PDF

maker标题遗漏

PDF-Extract-Kit 识别标题正确

对比问题5:表格解析错误

maker表格转md混乱

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RPG素材Unity7月20闪促限时4折游戏开发资产兽人角色模型动画休闲放置模板物理交互流体水下焦散VR界面UI2D模板场景20240720

今天这个是RPG素材比较多,还有一些休闲放置模板、FPS场景素材、角色模型、动画、特效。 详细内容展示:www.bilibili.com/video/BV1Tx4y1s7vm 闪促限时4折:https://prf.hn/l/0eEOG1P 半价促销:https://prf.hn/l/RlDmDeQ 7月闪促…

可再生能源工厂系统 (REPS) - 项目源码

狗头警告,这是VIP文章! 说明: 文件1: REPS_2024.pdf 可再生能源工厂系统 (REPS) 概述 可再生能源工厂 (REP) 是一个多代能源系统工厂,负责为城市、工业等生产可再生能源。可再生能源通常在世界各地的任何地点都可获得,具体取决于类型。此外,与常规能源相比,使用可再生…

【Flask项目】文件分享系统(二)

前一篇文章简单分析了基于Flask的文件分享系统,功能设计的很简单,就是浏览目录,支持文件的上传和下载,那么用flask该如何来实现呢,其实也很简单。 一个Flask程序必须包含实例、路由、视图函数、响应,才能正…

探索Perl的文件系统插件:灵活的系统扩展

探索Perl的文件系统插件:灵活的系统扩展 Perl是一种高度灵活和强大的脚本语言,它提供了丰富的API来处理文件和目录。文件系统插件机制是Perl中一个非常有用的功能,它允许开发者通过插件扩展文件系统的功能。本文将详细介绍如何在Perl中使用文…

谷粒商城实战-Vue学习过程中踩坑记录

一&#xff0c;自闭合的<script>标签 第一次使用Vue&#xff0c;按照步骤引入vue.js&#xff0c;创建div&#xff0c;创建Vue对象&#xff0c;但是未达预期效果。 插值表达式{{name}}没被替换为data对象中的属性值。 F12看了下网页源代码&#xff0c;发现创建Vue对象的…

OpenAI突发新模型GPT-4o mini,GPT-3.5退役!

OpenAI突发新模型&#xff0c;全面取代老去的GPT-3.5——GPT-4o mini&#xff01; 免费用户已可使用GPT-4o mini模型。 GPT-4o mini&#xff0c;能力接近原版GPT-4&#xff0c;价格却要便宜一个数量级&#xff1a; GPT-4o mini:每百万输入tokens&#xff0c;15美分&#xff0…

JVM工具实战:线上问题排查与性能分析

文章目录 jps&#xff1a;java 进程获取jstat&#xff1a;虚拟机统计信息监视工具jinfo&#xff1a;java 配置信息工具jmap&#xff1a;java 内存映像工具jstack&#xff1a;Java 堆栈跟踪工具 在程序运行过程中&#xff0c;我们可能会遇到各种问题&#xff0c;而稳定性风险是我…

RabbitMQ线程和连接模型详解

1. 线程、信道、连接、请求的概念 客户端&#xff08;生产者&#xff09;和服务端&#xff08;服务端&#xff09;之间建立连接。例如TCP连接&#xff0c;是一个长连接&#xff0c;也是较为稳定的连接&#xff0c;开销也较大。一般而言主客户端之间需要一个连接。但服务器需要…

【Node.js基础03】利用http模块创建Web服务

一&#xff1a;使用步骤 1 加载http模块&#xff0c;并创建Web服务程序 2 利用Web服务程序监听request事件&#xff0c;设置响应头和响应体 3 配置端口号并启动Web服务 4 浏览器请求设置的端口号&#xff0c;进行Web服务程序测试 二&#xff1a;简单应用 const http requir…

基于多线程延迟排序的睡眠排序算法的创新与改进

基于多线程延迟排序的睡眠排序算法的创新与改进 摘要 本文在传统睡眠排序算法的基础上&#xff0c;提出了一种改进方案&#xff0c;旨在优化处理负数和大规模数据集的性能。通过引入线程池管理和数据分段排序技术&#xff0c;改进后的算法在处理大数据集和包含负数的数据集时…

计算机网络入门 -- TCP详解

计算机网络入门 – TCP详解 1.TCP协议 1.1 报文格式 1.32位序号&#xff1a;该条TCP数据携带的起始序号。 2.32位确认序号&#xff1a;期望对方发送数据从那个序号开始发送。 3.4位首部长度&#xff1a;最大为0xF(15)&#xff0c;指的是TCP头部长度。 首部长度 4 位首部长…

谷粒商城实战笔记-37-前端基础-Vue-基本语法插件安装

文章目录 一&#xff0c;v-model1&#xff0c;双向绑定2&#xff0c;vue的双向绑定2.1 html元素上使用指令v-model2.2 model中声明对应属性2.3&#xff0c;验证view绑定modelmodel绑定view 完整代码 二&#xff0c;v-on1&#xff0c;指令简介2&#xff0c;在button按钮中添加v-…

rimraf快速删除node_modules方法

项目中&#xff0c;有时候会遇到下载依赖报错&#xff0c;然后想要删除node_modules再重新下载&#xff0c;但是有时候直接用yarn 或者npm install仍热不行&#xff0c;我们可以尽量用yran&#xff0c;因为npm 可能会自动下一些给一些包升级了&#xff0c;此时因为前面已经下过…

JVM:GraalVM

文章目录 一、介绍1、什么是GraalVM&#xff1a;2、GraalVM版本 二、两种使用模式 一、介绍 1、什么是GraalVM&#xff1a; GraalVM是Oracle官方推出的一款高性能JDK&#xff0c;使用它享受比OpenJDK或者OracleJDK更好的性能。GraalVM的官网地址&#xff1a;https://www.graa…

泛型新理解

1.创建三个类&#xff0c;并写好对应关系 package com.jmj.gulimall.study;public class People { }package com.jmj.gulimall.study;public class Student extends People{ }package com.jmj.gulimall.study;public class Teacher extends People{ }2.解释一下这三个方法 pub…

Xubuntu22.04 终端命令调用图形设置工具

最近将软件运行环境从Xubuntu16.04迁移到了Xubuntu22.04&#xff0c;主要是为了解决Qt程序的图形渲染使用集显去处理&#xff0c;而不是使用CPU。https://blog.csdn.net/qq_45445740/article/details/134495914 使用Xubuntu22.04系统发现很多图形设置工具不太容易在桌面找到&am…

数据结构(稀疏数组)

简介 稀疏数组是一种数据结构&#xff0c;用于有效地存储和处理那些大多数元素都是零或者重复值的数组。在稀疏数组中&#xff0c;只有非零或非重复的元素会被存储&#xff0c;从而节省内存空间。 案例引入 假如想把下面这张表存入文件&#xff0c;我们会怎么做&#xff1f;…

【LeetCode】翻转二叉树

目录 一、题目二、解法完整代码 一、题目 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1] 示例 2&#xff1a; 输入&#xff1a;root…

数据结构 day1

2024.7.20 数据结构之旅 那么接下来&#xff0c;是笔者每日学习之后的总结&#xff0c;以此来巩固复习&#xff0c; 本次目标 入门 中等的数据结构学习&#xff0c;come on 前置知识点: C语言的 (指针、结构、库函数、内存管理等) 数据结构定义&#xff1a; 用于计算机存储、…

【系统架构设计 每日一问】一 在单表查询的情况下,ES快还是mysql快

在单表查询的情况下&#xff0c;Elasticsearch&#xff08;ES&#xff09;和MySQL的查询速度对比并非绝对&#xff0c;而是取决于多个因素&#xff0c;包括查询类型、数据量大小、索引策略、系统配置等。以下是对两者在单表查询速度方面的详细分析&#xff1a; 一、查询类型 E…