MinerU容器构建教程

一、介绍

MinerU作为一款智能数据提取工具,其核心功能之一是处理PDF文档和网页内容,将其中的文本、图像、表格、公式等信息提取出来,并转换为易于阅读和编辑的格式(如Markdown)。在这个过程中,MinerU需要利用图像识别、文本识别(OCR)、布局分析等技术来理解和处理PDF文档和网页中的视觉信息。这些技术正是计算机视觉领域的重要组成部分。

二、构建流程

系统:Ubuntu系统,

显卡:3090,

显存:24G,cuda11.8

特别提示:使用显卡3060也可以(没尝试,感觉可以)

1.查看系统是否有Miniconda3的虚拟环境

conda -V
如果输入命令没有显示Conda版本号,则需要安装。

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

微信截图_20240820152809.png

3.创建虚拟环境

  • 创建名称为MinerU的虚拟环境
conda create -n MinerU python=3.8

微信截图_20240903144226.png

  • 激活“MinerU"虚拟环境
conda activate MinerU

微信截图_20240903144314.png

4.下载模型

输入下列命令对MinerU模型进行下载(11G左右)

git clone https://gitclone.com/github.com/opendatalab/MinerU.git

微信截图_20240903144718.png

进入模型文件

cd MinerU-master

微信截图_20240903145342.png

5.下载依赖包

输入下列命令:

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com

微信截图_20240903145522.png

下载时间会很长,耐心等待,直到出现“Successfully”开头的下载结果

微信截图_20240903151456.png

6.下载模型权重文件

输入下列命令进行下载:

git lfs install
git clone https://hf-mirror.com/opendatalab/PDF-Extract-Kit

微信截图_20240903164514.png

更改权重文件路径(后面运行找不到权重,你也可以更改运行代码的获取权重文件路径):

cp -r /MinerU-madter/PDF-Extract-Kit/models  /tmp/

微信截图_20240903171353.png

7.项目运行

"try.pdf"是本上传用于测试的文档,你可以根据自己所需上传自己的PDF文档。

输入下列命令:

magic-pdf –path “try.pdf”

微信截图_20240903171335.png

解析结束:

微信截图_20240903171637.png

查看结果文件:

微信截图_20240903171646.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文复现】基于深度学习的手势识别算法

本文所涉及所有资源均在这里可获取。 📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步,喜爱音乐、摄影的一位博主。 📗本文收录于论文复现系列,大家有兴趣的可以看一看…

使用QtWebEngine的Mac应用如何发布App Store

前言 因为QtWebEngine时第三方包,苹果并不直接支持进行App Store上签名和发布,所以构建和发布一个基于使用QtWebEngine的应用程序并不容易,这里我们对Qt 5.8稍微做一些修改,以便让我们的基于QtWeb引擎的应用程序并让签名能够得到苹果的许可。 QtWebEngine提供了C++和Qml的…

智能新纪元:人工智能技术的社会影响与伦理挑战-亿发

在数字化时代,人工智能(AI)正以其不可阻挡之势,深刻改变着我们的生产、生活和学习方式。它不仅是一项技术革命,更是推动社会进步的重要力量。本文将探讨人工智能如何重塑未来,以及它所带来的深远影响。 AI…

云平台虚拟机运维笔记整理,使用libvirt创建和管理虚拟机,以及开启虚拟机嵌套,虚拟磁盘扩容,物理磁盘扩容等等

云平台虚拟机运维笔记整理,使用libvirt创建和管理虚拟机,以及开启虚拟机嵌套,虚拟磁盘扩容,物理磁盘扩容等等。 掌握和使用qemu和libvirt,分别使用它们创建一个cirros虚拟机,并配置好网络。 宿主机node0的系统为ubuntu16,IP为192.168.56.200。 qemu和libvirt简介 QEMU…

mac crontab 不能使用问题简记

需要 crontab 有权限,如下截图设置 在访达上方【前往】-》【前往文件夹】输入/ 然后按 Command Shift . 显示隐藏文件,然后将 usr 放到左边栏 然后如下操作 系统设置中找到 隐私安全->完全访问磁盘 点击小锁头 点击号,将/usr/bin/c…

超简单安装油猴(tampermonkey)最新教程(保姆级)

文章目录 ‌‌Tampermonkey的简单介绍一、下载二、安装方法1.Chrome浏览器安装方法2.Microsoft Edge浏览器安装方法3.Opera浏览器安装方法 ‌‌Tampermonkey的简单介绍 ‌‌Tampermonkey是一个浏览器扩展程序,允许用户安装和管理各种用户脚本,这些脚本可…

python 如何将dataframe数据批量插入到clickhouse

1. 背景-问题描述 最近做一个资产数据清洗工作,结束后需要将数据批量插入到clickhouse;查找并尝试了好几种批量插入的方式均已失败告终;现就查到的dataframe类型数据批量插入到clickhouse记录和汇总于此。 2. 配置信息 python 3.12 clickh…

DevOps业务价值流:架构设计最佳实践

系统设计阶段作为需求与研发之间的桥梁,在需求设计阶段的原型设计评审环节,尽管项目组人员可能未完全到齐,但关键角色必须到位,包括技术组长和测试组长。这一安排旨在同步推进两项核心任务:一是完成系统的架构设计&…

强化学习之课程学习法

作者名片 🤵‍♂️ 个人主页:抱抱宝 😄微信公众号:宝宝数模AI ✍🏻作者简介:阿里云专家博主 | 持续分享机器学习、数学建模、数据分析、AI人工智能领域相关知识,和大家一起进步! &am…

计算机网络:网络层 —— 网络地址转换 NAT

文章目录 网络地址转换 NAT 概述最基本的 NAT 方法NAT 转换表的作用 网络地址与端口号转换 NAPTNAT 和 NAPT 的缺陷 网络地址转换 NAT 概述 尽管因特网采用了无分类编址方法来减缓 IPv4 地址空间耗尽的速度,但由于因特网用户数量的急剧增长,特别是大量小…

leetcode 633. 平方数之和 中等

给定一个非负整数 c ,你要判断是否存在两个整数 a 和 b,使得 a*ab*bc 。 示例 1: 输入:c 5 输出:true 解释:1 * 1 2 * 2 5示例 2: 输入:c 3 输出:false提示&#…

Qt第三课 ----------容器类控件

作者前言 🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂 ​🎂 作者介绍: 🎂🎂 🎂 🎉🎉&#x1f389…

运放进阶篇-多种波形可调信号发生器-产生方波-三角波-正弦波

引言:前几节我们已经说到硬件相关基础的电路,以及对于运放也讲到了初步的理解,特别是比较器的部分,但是放大器的部分我们对此并没有阐述,在这里通过实例进行理论结合实践的学习。而运放真正的核心,其实就是…

蓝桥杯c++算法学习【1】之枚举与模拟(卡片、回文日期、赢球票:::非常典型的比刷例题!!!)

别忘了请点个赞收藏关注支持一下博主喵!!! 关注博主,更多蓝桥杯nice题目静待更新:) 枚举与模拟 一、卡片: 【问题描述】 …

使用Netty实现一个简单的聊天服务器

✅作者简介:热爱Java后端开发的一名学习者,大家可以跟我一起讨论各种问题喔。 🍎个人主页:Hhzzy99 🍊个人信条:坚持就是胜利! 💞当前专栏:Netty 🥭本文内容&a…

用discuz开发一款网站自动秒收录源码功能更强悍更安全

用discuz开发一款网站自动秒收录源码功能更强悍更安全 在当今数字化时代,网站的曝光率和访问量是衡量其成功与否的重要指标。为了提升网站的曝光率,自动秒收录技术应运而生。而Discuz平台作为知名的社区管理系统,为开发者提供了丰富的功能和…

绿色能源发展关键:优化风电运维体系

根据QYResearch调研团队最新发布的《全球风电运维市场报告2023-2029》显示,预计到2029年,全球风电运维市场的规模将攀升至307.8亿美元,并且在接下来的几年里,其年复合增长率(CAGR)将达到12.5%。 上述图表及…

ER图的规范画法

ER图相较其他结构化分析方法和面向对象分析方法的图结构来说,还是相对容易不少,不过各位也要注重细节的严谨性。 entity,实体;relationship,关系;相信各位的英语水平不难理解ER图的功能,椭圆代表…

【静态页面】尚品汇 1、设计稿分析及资源准备

目录 1. 准备工作2. 理解设计3. 规划项目结构 1. 准备工作 安装必要的工具:确保你的开发环境已经准备好,包括文本编辑器(如 VSCode)、浏览器等。获取设计文件:获取UI设计稿或者设计文件链接,并确保可以访问…

基于MPPT最大功率跟踪的光伏发电蓄电池控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于MPPT最大功率跟踪的光伏发电蓄电池控制系统simulink建模与仿真。本系统包括PV模块,电池模块,电池控制器模块,MPPT模块,PWM模…