pdf转word/markdown等格式——MinerU的部署:2024最新的智能数据提取工具

 一、简介

MinerU是开源、高质量的数据提取工具,支持多源数据、深度挖掘、自定义规则、快速提取等。含数据采集、处理、存储模块及用户界面,适用于学术、商业、金融、法律等多领域,提高数据获取效率。一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。

二、应用场景

1.学术研究:

- 文献资料整理:科研人员在进行学术研究时,需要阅读大量的学术文献。MinerU可以从PDF格式的学术论文、电子书籍中快速提取关键信息,如研究方法、实验数据、结论等,并将其转换为易于整理和分析的格式,帮助科研人员高效地梳理文献内容,节省时间和精力。例如,在医学领域,研究人员可以利用MinerU从相关医学文献中提取疾病的症状、治疗方法、药物疗效等信息,为自己的研究提供参考。

- 数据收集与分析:对于需要进行大规模数据收集和分析的研究项目,MinerU可以从各种数据源(如学术数据库、网页等)中提取相关数据。比如在社会科学研究中,收集不同地区的人口统计数据、经济发展数据等,然后进行综合分析,以支持研究结论的得出。

2.商业与市场分析:

- 市场调研:企业在进行市场调研时,常常需要收集大量的市场数据,包括行业报告、竞争对手的信息、消费者反馈等。MinerU可以帮助企业从各种文档和网页中提取所需的数据,例如从行业研究报告中提取市场规模、增长率、市场份额等关键数据,为企业制定市场策略提供依据。

- 销售数据分析:从销售记录、客户反馈等数据中提取有价值的信息,如销售趋势、客户购买行为、产品受欢迎程度等。通过对这些数据的分析,企业可以优化产品策略、定价策略以及销售渠道策略,提高销售业绩。例如,电商企业可以利用MinerU从大量的交易数据中分析用户的购买习惯和偏好,从而进行精准营销和个性化推荐。

3.金融领域:

- 财务报表分析:能够从PDF格式的财务报表中提取关键的财务数据,如资产、负债、收入、利润等,并进行结构化处理,方便金融分析师进行财务比率分析、趋势分析等,以评估企业的财务状况和经营绩效。例如,证券分析师可以使用MinerU快速提取多家上市公司的财务报表数据,进行横向和纵向对比,为投资决策提供参考。

- 金融新闻与资讯分析:实时从金融新闻网站、财经媒体等渠道提取有关金融市场、股票、债券、汇率等方面的信息,并进行整理和分析。这有助于金融从业者及时了解市场动态,把握投资机会,做出更明智的投资决策。比如,通过MinerU提取金融新闻中关于某一特定公司的重大事件、业绩预告等信息,结合财务数据进行综合分析,判断该公司股票的投资价值。

4.法律领域:

- 法律文档处理:律师在处理案件时,需要阅读和分析大量的法律文件,如合同、法规、判决书等。MinerU可以帮助律师从这些文档中快速提取关键条款、法律依据、案件事实等信息,提高工作效率。例如,在合同审查中,MinerU可以提取合同的关键条款,如双方的权利义务、违约责任等,帮助律师快速了解合同的主要内容和风险点。

- 案例分析与研究:从大量的司法案例中提取相关信息,如案件事实、判决结果、法律适用等,为律师进行案例分析和研究提供支持。这有助于律师总结司法实践中的规律和趋势,提高辩护和代理的水平。

5.新闻媒体与出版:

- 新闻内容采集:新闻媒体可以使用MinerU从各种网站、社交媒体等渠道快速提取新闻内容,包括标题、正文、图片等,并进行整合和编辑,以提高新闻采编的效率。例如,实时采集各大新闻网站的热门新闻,进行汇总和分类,为读者提供全面的新闻资讯。

- 出版行业:在出版过程中,需要对大量的稿件进行处理。MinerU可以帮助编辑从作者提交的文档中提取文本内容、图片等,方便进行排版和编辑工作。同时,对于需要将纸质书籍数字化的项目,MinerU可以将PDF格式的书籍内容提取出来,转换为可编辑的文本格式,提高数字化的效率。

6.知识管理与学习:

- 知识整理与归纳:个人或组织可以利用MinerU从各种学习资料、知识库、在线课程等中提取知识点,进行整理和归纳,构建自己的知识体系。例如,学生可以将从教材、学术论文、网上课程中提取的重要知识点整理在一起,方便复习和备考。

- 在线学习平台:在线学习平台可以使用MinerU从各种教育资源中提取课程内容、题目、答案等信息,为学生提供个性化的学习服务。例如,根据学生的学习进度和需求,从大量的学习资源中提取适合的内容推送给学生,提高学习效果。

三、部署

https://github.com/opendatalab/MinerU

conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com

下载模型 :

MinerU-大语言语料处理神器,CPU/GPU均可跑,开源免费“敲”好用_魔搭ModelScope社区-ModelScope魔搭社区

四、测试

1.修改 magic-pdf.json 文件  修改models-dir,layoutreader-model-dir  为自己的位置。

{"bucket_info": {"bucket-name-1": ["ak","sk","endpoint"],"bucket-name-2": ["ak","sk","endpoint"]},"models-dir": "/home/py/ycc/MinerU-master/MODELSCOPE/hub/opendatalab/PDF-Extract-Kit-1___0/models","layoutreader-model-dir": "/home/py/ycc/MinerU-master/MODELSCOPE/hub/ppaanngggg/layoutreader","device-mode": "cuda","layout-config": {"model": "layoutlmv3"},"formula-config": {"mfd_model": "yolo_v8_mfd","mfr_model": "unimernet_small","enable": true},"table-config": {"model": "rapid_table","enable": false,"max_time": 400},"config_version": "1.0.0"
}

2.新建input output文件夹,将要识别的文件放入input中,运行: 

magic-pdf -p input -o output -m auto

即可在output中找到识别结果,表格将会剪切为图片,markdown有图片链接。

 五、总结(优点)

  • 智能清理:自动移除页眉、页脚、脚注、页码等干扰内容,确保文本语义连贯。

  • 结构保持:完整保留原文档的层级结构,包括标题、段落、列表等。

  • 多模态支持:精确提取图片、表格及其说明文字,支持图像、表格、公式等多种内容的识别和处理。

  • 公式转换:自动识别文档中的公式并将其转换为LaTeX格式。

  • 多语言OCR:支持84种语言的文字识别,能够处理扫描版PDF和乱码PDF。

  • 多种输出格式:支持多种输出格式,如Markdown、JSON等,方便后续分析和处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浔川AI翻译v5.1.0版本正式亮相!

浔川 AI 翻译 v5.1.0 版本正式亮相! 在科技浪潮汹涌澎湃的今天,浔川 AI 翻译以其卓越的技术实力和对用户需求的精准把握,自豪地向全球用户宣布:浔川 AI 翻译 v5.1.0 版本正式闪耀登场!这一全新版本在继承以往优势的基础…

【QNX+Android虚拟化方案】130 - io-pkt-v6-hc 相关问题log抓取命令整理

【QNX+Android虚拟化方案】130 - io-pkt-v6-hc 相关问题log抓取命令整理 基于原生纯净代码,自学总结 纯技术分享,不会也不敢涉项目、不泄密、不传播代码文档!!! 本文禁止转载分享 !!! 汇总链接:《【QNX+Android虚拟化方案】00 - 系列文章链接汇总》 本文链接:《【QNX…

安装更新upgrade导致ubuntu崩溃

安装更新导致ubuntu崩溃 前言uuid编不过,导致的崩溃 记录一些ubuntu崩溃的过程。 目前只有一个,以后遇到都放在这里,以提醒自己。 前言 如果从10000年看现在的linux,不是说不完美,而是糟透了。 linux的版本号&#xf…

探索前端世界的无限可能:玩转Excel文件

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

MySQL两阶段提交目的

阶段提交的过程 事务执行阶段:事务开始执行,InnoDB执行SQL语句的具体操作,如数据修改、删除等,并将这些操作记录在内存中。写入Redo Log(准备阶段):事务即将提交时,首先将事务相关的…

前端项目使用gitlab-cicd+docker实现自动化部署

GitLab CI/CD 是一个强大的工具,可以实现项目的自动化部署流程,从代码提交到部署只需几个步骤。本文将带你配置 GitLab CI/CD 完成一个前端项目的自动化部署。 前言 为什么使用cicddocker? 目前我们公司开发环境使用的shell脚本部署&#…

丢垃圾视频时间检测 -- 基于状态机的实现

文章目录 OverviewKey PointsPseudo-code Overview 需要考虑的方面 状态定义和转换条件时序约束空间约束异常处理 状态机的设计需要考虑的场景: 没有人人进入人携带垃圾人离开但垃圾留下垃圾消失异常情况(检测失败、多人多垃圾等) Key P…

easyexcel 导出日期格式化

1.旧版本 在新的版本中formate已经被打上废弃标记。那么不推荐使用这种方式。 2.推荐方式 推荐使用另外一种方式【 Converter 】代码如下,例如需要格式化到毫秒【yyyy-MM-dd HH:mm:ss SSS】级别 创建一个公共Converter import com.alibaba.excel.converters.Conv…

DApp开发前端框架选择:React还是Vue?

在区块链DApp开发中,前端框架的选择对用户体验和开发效率至关重要。React和Vue作为两大主流前端框架,各自拥有广泛的开发者基础和丰富的生态支持。那么在DApp开发中,该如何选择适合自己的框架呢?下面我们来比较一下,看…

6. 一分钟读懂“抽象工厂模式”

6.1 模式介绍 书接上文,工厂方法模式只能搞定单一产品族,遇到需要生产多个产品族时就歇菜了。于是,在需求的“花式鞭策”下,程序员们再次绷紧脑细胞,创造出了更强大的抽象工厂模式,让工厂一次性打包多个产品…

gulp应该怎么用,前端批量自动化替换文件

背景 最近公司准备把所有项目中用到的国际化相关的key规范化,原因是: 一直以来公司的app和web端 在针对相同的需求以及相同的国际化语言,需要设置不同的两份国际化文件,难以维护旧版的国际化文件中,存在的大量值重复&#xff0c…

WordPress阅读文章显示太慢的处理

有两种方式, 1. 完全静态化。 尝试了几个插件,都未成功。算了放弃了。因为感觉到实际使用也不方便。 2. cache缓存 用了WP Super Cache测试了一下,打开过一次后,文章秒开,也算达到了要求。

Nginx 缓存 DNS 解析问题

网上看到一些文章,觉得很不错,这里记录一下。 一、缓存问题的解决方案 1 每次更改 DNS 解析都重载 Nginx 重载 Nginx 一定会刷新缓存。 2 使用 Nginx 的 resolver 我们在使用 Nginx 过程中,有时需要根据 Url 传值动态选择 host 进行代理转…

UML箭线图的理解和实践

在软件开发的世界里,UML(统一建模语言)作为一种标准化的建模语言,扮演着举足轻重的角色。UML类图更是软件开发设计和架构过程中的核心工具,它不仅能帮助开发者明确系统中的类及其关系,还能为后续的代码实现…

hive 行转列

行转列的常规做法是,group bysum(if())【或count(if())】 建表: CREATE TABLE table2 (year INT,month INT,amount DOUBLE );INSERT INTO table2 (year, month, amount) VALUES(1991, 2, 1.2),(1991, 3, 1.3),(1991, 4, 1.4),(1992, 1, 2.1),(1992, 2, 2.2),(1992…

Poetry 使用

Poetry poetry 是一个包管理和打包的工具。 poetry 将所有的配置都放置在一个 pyproject.toml 文件中,这些配置包括:依赖管理、构建、打包、发布。 Windows 环境 下载 python 3.12.7 ,默认安装 C:\Users\fernando\AppData\Roaming\Python\Python312 …

WPF+MVVM案例实战与特效(三十二)- 封装一个Appconfig 操作类(保留注释)

文章目录 1、概述2、ConfigHelper 的功能3、代码实现1、ConfigHelper.cs 代码2、帮助类使用4、总结1、概述 在开发 WPF 应用程序时,配置文件(如 App.config )是存储应用程序设置、连接字符串和其他运行时信息的常用方式。然而,直接操作这些配置文件可能会涉及到复杂的 XML…

【NoSQL数据库】Hbase基本操作——数据库表的增删改查

目录 一、Hbase原理 二、HBase数据库操作 三、遇到的问题和解决方法 一、Hbase原理 HBase的数据模型: 行键 时间戳 列族:contents 列族:anchor 列族:mime “com.cnn.www” T9 Achor:cnnsi.com”CNN” T8 Achor:…

【ETCD】ETCD用户密码认证

目录 概述 特殊用户和角色 root用户 root角色 用户操作 角色操作 启用身份验证 使用etcdctl进行身份验证 使用TLS通用名称 概述 etcd 2.1中增加了身份验证功能。etcd v3 API对身份验证功能的API和用户界面进行了轻微修改,以更好地适应新的数据模型。本指南…

解决RAG召回内容多、相似性高、区分度不够的问题

在做RAG应用时,经常会遇到召回内容多、相似性高、区分度不够的问题。特别是在一些规范建模标准化特别强的文档中,如数据中台建模是命名规范下,往往在相同的表名中,相差的一个字符就是完全不同的数据。如,1d、1m分别代码…