文章目录
- 一、背景说明
- 二、代码编写
- 三、问题
- 3.1、如何得到图片的xref?
- 3.2、xref有什么用呢?
- 四、总结
一、背景说明
最近在看一份pdf的书籍,其中有一些图片绘制地比较出色,所以就打算将其复制出来,以便于在需要的时候进行使用。
但是,令人无奈的是,pdf中的图片是无法直接另存为的。搜了一些网上的做法,要么是需要收费,要么就需要在线上传文件… 总之方案都不是很理想。
偶然之下了解到Python的fitz这个组件,据说是可以导出PDF中的图片的。所以,在一番学习之下写了一个小的工具,成功导出了所需的图片。
出于备忘的需要,也为了将该方法分享给广大的小伙伴,享受从PDF中导出图片的快乐,所以就有了本文的诞生。
二、代码编写
闲言少叙,直接上代码:
import fitz
import os# 打开文件
pdf_file_name = "E:/books/xxx.pdf"# 提取图片函数
def extract_pics(file_name, extract_path):# 1.打开文件doc = fitz.open(file_name)#文档页数pages = len(doc)print("文档共有{}页".format(pages))# 2.遍历并检查每页的图片image_count = 0for i in range(pages):# 页面对象page = doc[i]# 获取图片列表images = page.get_images()# 遍历图片for image in images:# 返回图片引用xref = image[0]# 根据引用从pdf中释放出图片base_image = doc.extract_image(xref)#获得图片数据image_data = base_image["image"]# 保存图片if not os.path.exists(extract_path):os.makedirs(extract_path)with open(f'{extract_path}/image_{image_count}.png', 'wb') as f:f.write(image_data)image_count = image_count + 1# 3.关闭打开的pdfdoc.close()return image_countcount = extract_pics(pdf_file_name, "./pics")
print("导出 {} 张图片".format(count))
代码思路:
- 将待导出图片的文件,定义为一个变量。传入提取图片函数,作为参数。
- 将图片导出的目标路径作为函数的第二个参数
- 函数所做的事情如下:
- 打开pdf文档。打开文档后会返回一个文档的引用,类型是fitz.Document对象。
- page.get_images(),会返回page对象中定义的图片列表。列表的每一个元素的结构是:
[xref, smask, ...]
,所以说该方法的结果是数组的列表。我们可以看出:每个元素的第一个值就是xref。
- 所以代码
xref = image[0]
就是为了获取交叉引用。
而官方文档有这么一句:
Extract the image with img = doc.extract_image(xref). This is a dictionary containing the binary image data as img[“image”].
来源:https://pymupdf.readthedocs.io/en/latest/recipes-images.html#how-to-extract-images-pdf-documents
就是说:通过代码 img = doc.extract_image(xref)
可以提取图片。这个方法的返回值是一个字典。通过字典的 img["image"]
可以获取二进制的图片数据 。
- 保存提取出图片的目录。如果不存在,就新建该目录。
- 使用with语句优雅地将二进制图片数据写入到指定目录中。图片的命名从0开始,并记录导出图片的数量。
- 最后不要忘记关闭pdf文件。释放资源。
三、问题
3.1、如何得到图片的xref?
答:
循环访问 Page.get_images() 的项目。它会返回一个列表的列表,列表的元素结构类似于 [xref, smask, …],其中包含图像。
3.2、xref有什么用呢?
答:可以使用 img = doc.extract_image(xref) 提取图像。img是一个 字典结构。其中 img[“image”] 可以返回一个二进制图像数据。
四、总结
本文通过Python写了一个可以导出pdf文件中图片的小工具。借助这个工具可以很容易地将pdf中的所有图片都导出到指定目录。
文中对代码的核心功能部分进行了讲解。并结合官方文档说明了代码为什么这么写。希望对小伙伴们有帮助!!
参考:
https://pymupdf.readthedocs.io/en/latest/module.html
https://pymupdf.readthedocs.io/en/1.24.0/recipes-images.html#how-to-extract-images-pdf-documents