python+PyMuPDF库：(一)创建pdf文件及内容读取和写入

文档操作

打开文档

获取文档信息

删除页

复制页

移动页

选择重构合并

保存关闭

页对象操作

内容读取

获取页对象的字体样式

插入文本标签

插入文本内容

字体设置

insert_text添加文本

insert_textbox添加文本

插入图片

获取页面注释、链接、表单字段

获取页面RGB图像数据并将页面保存为图片

获取页面的矢量图(转svg)

创建新页面

安装：pip install PyMuPDF -i https://pypi.mirrors.ustc.edu.cn/simple/

PyMuPDF库支持多种文档格式的内容读取，如PDF、XPS、CBZ等，支持将文档转换为其他格式，如HTML、SVG、PDF和CBZ等。
PyMuPDF可以修改pdf文件的内容。其他文件类型用PyMuPDF是只读的。但可以将任何文档（包括图像）转换为PDF（Document.convert_to_pdf()），然后将再使用PyMuPDF的功能进行操作。

参考文档：https://pymupdf.readthedocs.io/en/latest/page.html

文档操作

打开文档

open()没有参数时是打开新的文档，有参数时是加载指定文档

fitz和pymupdf 是同一个库，操作相同

import fitz  # fitz就是PyMuPDF的别名
# import pymupdf  # 同fitz# new_pdf = pymupdf.open()
# pdf_document = pymupdf.open(pdf_path)  # 打开文档，获取文档对象new_pdf = fitz.open()
pdf_document = fitz.open(pdf_path)  # 打开文档，获取文档对象

获取文档信息

    print(pdf_document.metadata)  # 获取文档信息print(pdf_document.get_toc())  # 获取目录大纲print(pdf_document.page_count)  # 获取页数

文档信息如下：

{'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '7e1d6144af9e0ffb0HJ_0924E1RQy4S3U_uCQ-ernv_VMhNm', 'creator': 'Microsoft® Word 2021', 'producer': 'Microsoft® Word 2021; modified using iText® 5.5.13 ©2000-2018 iText Group NV (AGPL-version)', 'creationDate': "D:20240322202301+08'00'", 'modDate': "D:20240423092659+08'00'", 'trapped': '', 'encryption': None}

删除页

delete_page 删除指定页,一次只删除一页，参数为对应页的索引

pdf_document.delete_page(-1)

delete_pages 删除多页，传入参数如果为列表/元组/范围，可删除对应页，如果是两个整数则删除从第n页到第m页(关键字'from_page'/'to_page')

    pdf_document.delete_pages((2,4,7))pdf_document.delete_pages(3,5)

复制页

    pdf_document.copy_page(2)  # copy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页)，复制PDF文档中的页面。这只会创建同一个页面对象的另一个引用pdf_document.fullcopy_page(2)  # fullcopy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页)，复制一整页

移动页

pdf_document.move_page(0,2)  # move_page(n,m)将第n+1页移动到第m+1页,m默认为-1(最后一页)

选择重构合并

在列表中建立带有页码的子pdf。参数为需要重新创建指定页的页码列表，页码必须是在范围内，会根据列表中的顺序选择整合文档，这里演示只合并奇数页。

pdf_document.select([i for i in range(0,pdf_document.page_count,2)])

保存关闭

    def save(self,filename,garbage=0,clean=0,deflate=0,deflate_images=0,deflate_fonts=0,incremental=0,ascii=0,expand=0,linear=0,no_new_id=0,appearance=0,pretty=0,encryption=1,permissions=4095,owner_pw=None,user_pw=None,preserve_metadata=1,use_objstms=0,compression_effort=0,):

    pdf_document.save(rf'{save_img_path}\{pdf_file_name}-副本{int(time())}.pdf')pdf_document.close()

页对象操作

内容读取

PyMuPDF支持将读取到的内容转为多种格式的数据，默认为text纯文本内容

"text"：（默认）带换行符的纯文本（不包含格式、文字位置详细信息和图像）。

    pdf_document = fitz.open(pdf_path)  # 打开文档，获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象text = page.get_text()  # 获取页面文本内容print(text)

"blocks"：生成文本块（段落）的列表。

"words"：生成不包含空格的字符串单词列表。

"html"：创建包括任何图像的html数据。

def fitz_pdf(pdf_path):pdf_document = fitz.open(pdf_path)  # 打开文档，获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象html = page.get_text("html")  # 获取页面内容with open(f'test-{page_num}.html', 'w') as f:f.write(html)pdf_document.close()

"dict" 或 "json"：

"rawdict"或 "rawjson"：包含XML之类字符详细信息的"dict"及"json"的超级集合。

"xhtml"：包含图像及文本信息级别的html数据。

"xml"：不包含图像，只有每个文本字符的完整位置和字体信息。