python+PyMuPDF库:(一)创建pdf文件及内容读取和写入

目录

文档操作 

打开文档

获取文档信息

删除页

复制页

移动页

选择重构合并

保存关闭

页对象操作

内容读取

获取页对象的字体样式

插入文本标签

插入文本内容

字体设置

insert_text添加文本

insert_textbox添加文本

插入图片

获取页面注释、链接、表单字段

获取页面RGB图像数据并将页面保存为图片

获取页面的矢量图(转svg)

创建新页面


安装:pip install PyMuPDF -i https://pypi.mirrors.ustc.edu.cn/simple/

PyMuPDF库支持多种文档格式的内容读取,如PDF、XPS、CBZ等,支持将文档转换为其他格式,如HTML、SVG、PDF和CBZ等。
PyMuPDF可以修改pdf文件的内容。其他文件类型用PyMuPDF是只读的。但可以将任何文档(包括图像)转换为PDF(Document.convert_to_pdf()),然后将再使用PyMuPDF的功能进行操作。

参考文档:https://pymupdf.readthedocs.io/en/latest/page.html

文档操作 

打开文档

open()没有参数时是打开新的文档,有参数时是加载指定文档

fitz和pymupdf 是同一个库,操作相同

import fitz  # fitz就是PyMuPDF的别名
# import pymupdf  # 同fitz# new_pdf = pymupdf.open()
# pdf_document = pymupdf.open(pdf_path)  # 打开文档,获取文档对象new_pdf = fitz.open()
pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象

获取文档信息

    print(pdf_document.metadata)  # 获取文档信息print(pdf_document.get_toc())  # 获取目录大纲print(pdf_document.page_count)  # 获取页数

文档信息如下:

{'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '7e1d6144af9e0ffb0HJ_0924E1RQy4S3U_uCQ-ernv_VMhNm', 'creator': 'Microsoft® Word 2021', 'producer': 'Microsoft® Word 2021; modified using iText® 5.5.13 ©2000-2018 iText Group NV (AGPL-version)', 'creationDate': "D:20240322202301+08'00'", 'modDate': "D:20240423092659+08'00'", 'trapped': '', 'encryption': None}

删除页

delete_page 删除指定页,一次只删除一页,参数为对应页的索引

pdf_document.delete_page(-1)

delete_pages 删除多页,传入参数如果为列表/元组/范围,可删除对应页,如果是两个整数则删除从第n页到第m页(关键字'from_page'/'to_page')

    pdf_document.delete_pages((2,4,7))pdf_document.delete_pages(3,5)

复制页

    pdf_document.copy_page(2)  # copy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页),复制PDF文档中的页面。这只会创建同一个页面对象的另一个引用pdf_document.fullcopy_page(2)  # fullcopy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页),复制一整页

移动页

pdf_document.move_page(0,2)  # move_page(n,m)将第n+1页移动到第m+1页,m默认为-1(最后一页)

选择重构合并

在列表中建立带有页码的子pdf。参数为需要重新创建指定页的页码列表,页码必须是在范围内,会根据列表中的顺序选择整合文档,这里演示只合并奇数页。

pdf_document.select([i for i in range(0,pdf_document.page_count,2)]) 

保存关闭

    def save(self,filename,garbage=0,clean=0,deflate=0,deflate_images=0,deflate_fonts=0,incremental=0,ascii=0,expand=0,linear=0,no_new_id=0,appearance=0,pretty=0,encryption=1,permissions=4095,owner_pw=None,user_pw=None,preserve_metadata=1,use_objstms=0,compression_effort=0,):
    pdf_document.save(rf'{save_img_path}\{pdf_file_name}-副本{int(time())}.pdf')pdf_document.close()

页对象操作

内容读取

PyMuPDF支持将读取到的内容转为多种格式的数据,默认为text纯文本内容

"text":(默认)带换行符的纯文本(不包含格式、文字位置详细信息和图像)。

    pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象text = page.get_text()  # 获取页面文本内容print(text)

"blocks":生成文本块(段落)的列表。

"words":生成不包含空格的字符串单词列表。

"html":创建包括任何图像的html数据。

def fitz_pdf(pdf_path):pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象html = page.get_text("html")  # 获取页面内容with open(f'test-{page_num}.html', 'w') as f:f.write(html)pdf_document.close()

"dict" 或 "json":

"rawdict"或 "rawjson":包含XML之类字符详细信息的"dict"及"json"的超级集合。

"xhtml":包含图像及文本信息级别的html数据。

"xml":不包含图像,只有每个文本字符的完整位置和字体信息。

获取页对象的字体样式

        page = pdf_document.load_page(page_num)  # 获取页对象print(page.get_fonts())  # 获取字体样式
[(14, 'ttf', 'TrueType', 'BCDEEE+Cambria', 'F1', 'WinAnsiEncoding'), (15, 'ttf', 'Type0', 'BCDFEE+MS-Gothic', 'F2', 'Identity-H'), (16, 'ttf', 'Type0', 'BCDGEE+MicrosoftYaHei', 'F3', 'Identity-H'), (17, 'n/a', 'TrueType', 'ArialMT', 'F4', 'WinAnsiEncoding'), (18, 'ttf', 'Type0', 'BCDHEE+SimHei', 'F5', 'Identity-H'), (19, 'ttf', 'Type0', 'BCDIEE+MicrosoftYaHei-Bold', 'F6', 'Identity-H'), (20, 'ttf', 'TrueType', 'BCDJEE+SimHei', 'F7', 'WinAnsiEncoding'), (21, 'ttf', 'TrueType', 'BCDKEE+MicrosoftYaHei', 'F8', 'WinAnsiEncoding'), (22, 'ttf', 'TrueType', 'BCDLEE+Cambria-Bold', 'F9', 'WinAnsiEncoding'), (23, 'n/a', 'TrueType', 'Arial-BoldMT', 'F10', 'WinAnsiEncoding'), (24, 'ttf', 'Type0', 'BCDMEE+Wingdings-Regular', 'F11', 'Identity-H'), (25, 'ttf', 'TrueType', 'BCDNEE+ArialUnicodeMS', 'F12', 'WinAnsiEncoding'), (26, 'ttf', 'Type0', 'BCDOEE+ArialUnicodeMS', 'F13', 'Identity-H'), (1, 'n/a', 'Type1', 'Helvetica', 'Xi0', 'WinAnsiEncoding')]

插入文本标签

page.add_text_annot((50, 150), f'文本便利贴测试,这是{page_num + 1}页')

插入文本内容

字体设置

如果写入内容时不指定字体时,中文内容会乱码。

内置字体:china-s 黑体 china-ss 宋体 china-t 繁体黑体 china-ts 繁体宋体。

自定义字体添加如下,很多网上分享者都用 fitz.Font() 添加,根本没有用。

        page.insert_font(fontname="三极妙漫体",fontfile=r"C:\Users\DELL\AppData\Local\JianyingPro\三极妙漫体.ttf",fontbuffer=None, set_simple=False)  # 自定义字体添加
insert_text添加文本
    def insert_text(self,point: point_like,buffer_: typing.Union[str, list],fontsize: float = 11,lineheight: OptFloat = None,fontname: str = "helv",fontfile: OptStr = None,set_simple: bool = 0,encoding: int = 0,color: OptSeq = None,fill: OptSeq = None,render_mode: int = 0,border_width: float = 1,rotate: int = 0,morph: OptSeq = None,stroke_opacity: float = 1,fill_opacity: float = 1,oc: int = 0,) -> int:
page.insert_text((50, 50), "这是中文测试", fontsize=15, fontname='china-s')
insert_textbox添加文本
    def insert_textbox(self,rect: rect_like,buffer: typing.Union[str, list],fontname: OptStr = "helv",fontfile: OptStr = None,fontsize: float = 11,lineheight: OptFloat = None,set_simple: bool = 0,encoding: int = 0,color: OptSeq = None,fill: OptSeq = None,expandtabs: int = 1,border_width: float = 0.05,align: int = 0,render_mode: int = 0,rotate: int = 0,morph: OptSeq = None,stroke_opacity: float = 1,fill_opacity: float = 1,oc: int = 0,) -> float:
        text_rect = fitz.Rect(80, 80, 500, 100)  # 定义文本框位置page.insert_textbox(text_rect, "测试文本框添加操作", fontsize=12,align=fitz.TEXT_ALIGN_LEFT, fontname='三极妙漫体',fill=(200 / 255, 250 / 255, 100 / 255), rotate=90, fill_opacity=.2)

插入图片

insert_image(rect, *, alpha=-1, filename=None, height=0, keep_proportion=True, mask=None, oc=0, overlay=True, pixmap=None, rotate=0, stream=None, width=0, xref=0)
        img_rect = fitz.Rect((50, 50, 150, 100))page.insert_image(img_rect, filename=r'E:\桌面\99\测试图片\1.jpg')  # 可设置位置和图片大小

获取页面注释、链接、表单字段

        for ant in page.annots():  # 获取注释print(ant)for link in page.links():  # 获取链接print(link)for widget in page.widgets():  # 获取表单字段print(widget)

获取页面RGB图像数据并将页面保存为图片

get_pixmap(*, matrix=pymupdf.Identity, dpi=None, colorspace=pymupdf.csRGB, clip=None, alpha=False, annots=True)

获取页面RGB图像,参数包含分辨率、颜色空间(可生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。可设置宽度、高度等。

        pix = page.get_pixmap()pix.save('test.png')

获取页面的矢量图(转svg)

        svg_img = page.get_svg_image()with open('test.svg', 'w') as f:f.write(svg_img)

创建新页面

pdf_document.new_page()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源诊断工具Arthas

说明: 1、需要先要安装配置好jdk。 2、你的虚拟机得有网,没有网就按照压缩包上传解压。然后直接看三 一、官网 https://arthas.aliyun.com/doc/quick-start.html#_1-%E5%90%AF%E5%8A%A8-math-game 二、下载和卸载 # 下载 curl -O https://arthas.al…

VisionPro开发使用交互反馈系统(Affordance System)

XR Interaction Toolkit 提供了一个affordance system 可供性系统,使用户能够创建对交互状态的视觉和听觉反馈。一般的信息流从向Affordance State Provider场景中添加一个(通常是可交互的)并将其指向我们要监视其交互状态的可交互对象开始。…

P1588 [USACO07OPEN] Catch That Cow S 洛谷 BFS-最短路思想

题目描述 FJ 丢失了他的一头牛,他决定追回他的牛。已知 FJ 和牛在一条直线上,初始位置分别为 x 和 y,假定牛在原地不动。FJ 的行走方式很特别:他每一次可以前进一步、后退一步或者直接走到 2x 的位置。计算他至少需要几步追上他的…

如何在 Ubuntu 22.04 上安装并开始使用 RabbitMQ

简介 消息代理是中间应用程序,在不同服务之间提供可靠和稳定的通信方面发挥着关键作用。它们可以将传入的请求存储在队列中,并逐个提供给接收服务。通过以这种方式解耦服务,你可以使其更具可扩展性和性能。 RabbitMQ 是一种流行的开源消息代…

云原生架构中的中间件容器化:优劣势与实践探索

在云原生架构逐步推进的过程中,许多企业已经开始将应用和服务容器化,以充分利用云计算带来的弹性和自动化。随着容器技术的发展,容器化不仅仅限于应用层,越来越多的中间件也被考虑纳入容器化范畴,包括Redis、Kafka、Ra…

力扣矩阵-算法模版总结

lc-73.矩阵置零-(时隔14天)-12.27 思路:(23min22s) 1.直接遍历遇0将行列设0肯定不行,会影响后续判断,题目又要求原地算法,那么进一步考虑是否可以将元素为0,其行列需要设为0的位置给存储下来,最后再遍历根据…

OCR实践-问卷表格统计

前言 书接上文 OCR实践—PaddleOCROCR实践-Table-Transformer 本项目代码已开源 放在 Github上,欢迎参考使用,Star https://github.com/caibucai22/TableAnalysisTool 主要功能说明:对手动拍照的问卷图片进行统计分数(对应分数…

vue3 video 播放rtmp视频?(360浏览器支持)

** 注意:目前只能在360浏览器播放rtmp视频** 谷歌浏览器不支持Flash Player的问题 试过上面这个方法,目前没能实现(没解决),如果有更好的解决方法,告诉我一下 需要下载版本较低的video.js版本库&#xff0…

yarn list --pattern vuex-module-decorators

dgqdgqdeMac-mini spid-admin % yarn list --pattern vuex-module-decorators yarn list v1.22.22 └─ vuex-module-decorators0.16.1 ✨ Done in 0.24s.好的,这段代码是一个典型的 Vuex 模块定义,使用了 vuex-module-decorators 库。这个库为 Vuex 提…

用Python写炸金花游戏

文章目录 **代码分解与讲解**1. **扑克牌的生成与洗牌**2. **给玩家发牌**3. **打印玩家的手牌**4. **定义牌的优先级**5. **判断牌型**6. **确定牌型优先级**7. **比较两手牌的大小**8. **打印结果** 完整代码 以下游戏规则: 那么我们要实现的功能,就是…

day19-Linux软件包

科普,什么是代码文件。 电脑程序Program,就是某一个编程语言编写的一个代码文件,里面包含了该语言特有的指令,以及各种字符、符号。 linux自带的network管理脚本,shell脚本 什么是软件程序。 软件程序,就…

浅谈下Spring MVC的执行流程

什么是Spring MVC Spring MVC是一个基于Java的Web框架,用于构建Web应用程序。 它是Spring Framework的一部分,它提供了模型-视图-控制器(MVC)架构。 支持RESTful风格的URL请求,易于与其他视图技术集成,如…

图像处理-Ch4-频率域处理

Ch4 频率域处理(Image Enhancement in Frequency Domain) FT :将信号表示成各种频率的正弦信号的线性组合。 频谱: ∣ F ( u , v ) ∣ [ R 2 ( u , v ) I 2 ( u , v ) ] 1 2 |F(u, v)| \left[ R^2(u, v) I^2(u, v) \right]^{\frac{1}{2}} ∣F(u,v)…

从代码中学习:评估模型的性能

从代码中学习:评估模型的性能 在这篇博客中,我们将逐步解析一段Python代码,并解释每一行的作用。这段代码主要用于加载数据集、加载预训练模型、进行推理并评估模型的性能。我们将以简单易懂的方式解释每一部分,确保即使是小学生…

C++ 内存管理:原理、技巧与实战

目录 第一章:C++ 内存管理基础 1.1 C++ 内存布局剖析 1.2 内存分配与释放:核心机制详解 1.2.1 new/delete 操作符 1.2.2 malloc/free 函数 第二章:智能指针 —— 内存管理利器 2.1 智能指针概览 2.2 常用智能指针类型 2.2.1 unique_ptr 2.2.2 shared_ptr 2.2.3 we…

Vue BPMN Modeler流程图

1、参考地址 git clone https://github.com/evanyangg/vue-bpmn-modeler.git 2、安装bpmn.js npm install bpmn-js --save 3、使用bpmn.js <template><div class"containers"><div class"canvas" ref"canvas"></div&g…

将现有Web 网页封装为macOS应用

文章目录 方式一&#xff1a;Unite for macOS方式二&#xff1a;Web2Desk方式三&#xff1a;Nativefier方式四&#xff1a;Flutter Flutter WebView Plugin总结 方式一&#xff1a;Unite for macOS Unite 是一款专为 macOS 设计的工具&#xff0c;可以将任意 Web 页面快速封装…

element下拉多选项回显

需求&#xff1a;在新增页面下拉选项多选之后&#xff0c;在编辑页面要回显出来&#xff08;新增页跟编辑页共用一个页面&#xff09; <el-form-item label"锁类型" prop"selectListvalue"><el-selectv-model"selectListvalue"multipl…

2024年前端工程师总结

前言 大家好&#xff0c;我是小荣&#xff0c;一名正在走向全栈接单的前端开发工程师。 到年底了&#xff0c;如往年一样给自己做个年终总结。总结是一件好事&#xff0c;希望大家也做起来。 我将会从以下几个点展开讲讲&#xff1a; 2024年的程序员经历2024年的个人发展与行…

TipTap编辑器:现代化的富文本编辑解决方案

简介 TipTap是一个基于 ProseMirror 的现代化富文本编辑器框架。它具有模块化、可扩展和响应式的特点&#xff0c;特别适合用于Vue、React等现代前端框架中。 主要特点 1. 模块化设计 import { Editor } from tiptap/core import StarterKit from tiptap/starter-kitconst …