【Python】PyMuPDF模块将PDF转换为图片

上一篇文章介绍了pdf2image模块+poppler将PDF转换为图片,这篇文章主要介绍另外一个模块PyMuPDF。 
PyMuPDF(又名“fitz”):MuPDF的Python绑定,它是一个轻量级的PDF和XPS查看器。该库可以访问PDF,XPS,OpenXPS,epub,漫画和小说书籍格式的文件,并以其顶级性能和高渲染质量而闻名。
第三方库 PyMuPDF 在 python 环境下对 PDF 文件的操作,特别是图片和pdf之间相互转换比较方便,并且能较方便的执行一些如追加删除之类的功能。
文档地址:https://pymupdf.readthedocs.io/en/latest/

github地址:https://github.com/pymupdf/PyMuPDF

# -*- coding: utf-8 -*-
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者:cacho_37967865
#博客:https://blog.csdn.net/sinat_37967865
#文件:PyMuPDFModel.py
#日期:2019-10-10
#备注:pip install PyMuPDF  
https://github.com/pymupdf/PyMuPDF
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''import fitz
from operator import itemgetter
import os
import time
from saveFile import a_save_txt# 将pdf转换为图片
def pdf_to_image(pdfPath, imagePath):pdfDoc = fitz.open(pdfPath)for pg in range(pdfDoc.pageCount):page = pdfDoc[pg]pix = page.getPixmap(alpha=False)          # 默认是720*x尺寸if not os.path.exists(imagePath):os.makedirs(imagePath)pix.writePNG(imagePath+'/'+'images_%s.jpg' % pg)     #将图片写入指定的文件夹内# 将pdf转换为txt文字
def pdf_to_text(pdfPath, textPath):doc = fitz.open(pdfPath)for page in doc:text = page.getText()print(text)a_save_txt(textPath,text)def pdf_to_TextBlocks(pdfPath, textPath):doc = fitz.open(pdfPath)for page in doc:blocks = page.getTextBlocks()sb = sorted(blocks, key=itemgetter(1, 0))for b in sb:print(b[4])def main():sTime = time.time()#pdf_to_image('1.pdf', 'F:\image\\output\\')pdf_to_text('1.pdf', 'F:\image\pdftxt.txt')#pdf_to_TextBlocks('1.pdf', 'F:\image\pdftxt.txt')eTime = time.time()s = eTime - sTimeprint('花费的时间为:%.2f秒' % (s))if __name__ == '__main__':main()

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/568494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Liunx服务器】阿里云服务器下部署多个tomcat服务

现在有这样一个场景,一个阿里云服务器上面已经有tomcat项目和多个maven项目,现在需要在一个新项目中配置一个空的tomcat,现将具体流程记录下来。 1.下载tomcat包或者找到已下载的包 2.将tomcat的包解压到指定项目目录:/data/proj…

【测试】身份证的前世今生

在我们的测试中,经常要校验身份证的有效性,但是我们大多数人并不清楚身份证具体是如何组成的,有什么特点,下面我们就了解一下它的前世今生。 身份证由来 从1999年10月1日起,全国实行公民身份证号码制度,居民身份证编号由原15位升至18位。 根据〖中华人民共和国国家标准…

C++根据输入日期YYYY-MM-DD判断是否星期几

参考链接: https://blog.csdn.net/bible521125/article/details/50418436 https://blog.csdn.net/tojohnonly/article/details/78326633 https://blog.csdn.net/fengbingchun/article/details/54835571

【音频】音频文件格式以及相关参数

音频是个专业术语,音频一词已用作一般性描述音频范围内和声音有关的设备及其作用。人类能够听到的所有声音都称之为音频,它可能包括噪音等。 声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理,或是把它制作…

python 按照当前日期创建文件

import time import os.path#获得当前系统时间的字符串 localtimetime.strftime(%Y-%m-%d %H:%M:%S,time.localtime(time.time())) print(localtimelocaltime) #系统当前时间年份 yeartime.strftime(%Y,time.localtime(time.time())) #月份 monthtime.strftime(%m,time.localti…

【Python】Python中内置的%操作符

Python中内置的%操作符可用于格式化字符串操作,控制字符串的呈现格式。Python中还有其他的格式化字符串的方式,但%操作符的使用是最方便的。 格式符为真实值预留位置,并控制显示的格式。格式符可以包含有一个类型码,用以控制显示的…

数据结构二叉树遍历求后序

注意左右子树的递归 参考自https://blog.csdn.net/hou_blog/article/details/50015503

python queue队列

作用: 解耦:使程序直接实现松耦合,修改一个函数,不会有串联关系。 提高处理效率:FIFO = 现进先出,LIF&#…

【Python】ffmpeg模块查询视频、音频信息

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。 它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量&#xff…

log4j学习

依赖 <!--log4j依赖--> <dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version> </dependency><!--测试--> <dependency><groupId>org.junit.jupiter</g…

navicat连接远程mysql数据库

前提&#xff1a;保证你的navicat数据是允许外界可以连接 1.保证两台电脑应在同一局域网内 2.查询被连接数据库电脑的ip 3.在连接端&#xff0c;主机那个填入ip地址&#xff0c;用户名&#xff0c;密码等信息。测试连接 4、连接成功后&#xff0c;用此ip即为连接数据库的ho…

【Python】ffmpeg模块处理视频、音频信息

多媒体视频处理工具FFmpeg有非常强大的功能包括视频采集功能、视频格式转换、视频抓图、给视频加水印等。 这里主要介绍一下FFmpeg的一些常用参数&#xff0c;并且主要功能&#xff1a;截取视频、视频格式转换、视频分辨率转换、视频合并、提取视频、提取音频、提取图片、视频水…

【探索测试篇】探索无界,BUG无限,让程序猿头疼的测试技术

探索无界&#xff0c;BUG无限 一、修改系统时间 当功能模块中存在倒计时、计时器、时间&#xff0c;与时间有关系时&#xff0c;尝试修改系统时间&#xff0c;测试系统时间是否参与计算&#xff0c;修改系统时间是否会影响到倒计时、计时、时间等与时间有关系的模块 例&#…

【数据库】Mysql函数DATE_ADD() 增加日期/时间

有这样一个场景&#xff1a;数据库还款计划表有到期还款日字段&#xff0c;正常是每月2日。但这个字段有些是每月1日&#xff0c;现需要统一改成2日&#xff0c;可以用到DATE_ADD函数&#xff0c;但是执行时需要注意&#xff1a;只能执行一次 DATE_ADD(date,INTERVAL expr type…

python 时间函数小总结

时间戳&#xff1a;从1970年1月1日00:00:00开始按秒计算的偏移量。举个例子&#xff0c;现在是2017年6月11的下午16:54:32&#xff0c;那么print(time.time())输出的值是1497171320.99就代表现在的时间戳。 元组&#xff08;struct_time&#xff09;&#xff1a;struct_time元组…

【数据库】Mysql函数DATE_FORMAT() 显示日期/时间

上一篇文章介绍了Mysql函数DATE_ADD()&#xff0c;这篇文章主要是为了解决上次遗留的问题&#xff1a; 把问题变得更复杂一点&#xff1a;假设有两个借款&#xff0c;其中一个借款1的到期还款日为2日&#xff0c;借款2的到期还款日为10日。这个字段loan_pmt_due_date日期有多个…

fiddler抓包工具使用技巧

一、快速找所有post、get、Result code200请求 1、所有post请求的图标都是带有向右的小箭头的那种&#xff0c;如果能让所有向右的小箭头都高亮显示就好了解决方案&#xff1a;输入命令&#xff1a;post 然后点击enter键回车&#xff0c;可以看到所有的post请求都是以蓝色的底…

python文件操作小总结

os.getcwd() 方法用于返回当前工作目录 os.path.getatime(file) 输出文件访问时间 os.path.getctime(file) 输出文件的创建时间 os.path.getmtime(file) 输出文件最近修改时间

【数据库】Mysql的CONCAT()函数拼接字符串

mysql CONCAT()函数用于将多个字符串连接成一个字符串&#xff0c;是最重要的mysql函数之一&#xff1a; mysql CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL &#xff0c;则返回值为 NULL。 回到上一篇文章的问题&#xff1a;假设有两个借款…

Jmeter中JDBC Connection Configuration实现MySQL JDBC Request数据库处理

一、JDBC Connection Configuration数据库配置元件 线程组-添加-配置元件-JDBC Connection Configuration Name:元件命名空间&#xff0c;请随意 Comments:注释&#xff0c;请随意 Variable Name:数据库连接池的名称&#xff0c;因为一个测试计划可以有多个JDBC Connection …