.net pdf转图片_pdf2image类库实现批量pdf转图片

通过pdf2image来实现对PDF文件的处理工作，我们本次主要做的是将PDF文件批量转成图片。之前写过批量提取封面的文章，但是在后期的深入编写过程中遇到一些问题，近期再次深入编写程序，一起来看看代码吧！

python

一、说明

本次使用python的类库pdf2image来实现功能，pdf2image需要poppler和pillow的支持。

二、安装poppler和pillow

1、popple安装

window安装方式

通过国内网址：http://blog.alivate.com.au/poppler-windows/，下载压缩包，将压缩包进行解压操作，目录如下图，将解压包放置到磁盘根目录(避免出现误删除情况)，进入lib文件夹，复制路径。如下：C:poppler-0.68.0lib，将路径添加到环境变量PATH中。然后将电脑重新启动(需要重启一下电脑才会生效)

示例

linux安装(centos为例)

yum install poppler poppler-cpp-devel poppler-utils

2、pillow安装

pip install pillow

三、编写代码

import configparserimport osfrom pdf2image import convert_from_path, convert_from_bytes '''    PDF 文件转图片    使用类库 pdf2image''' # 获取目录下所有 PDF 格式文件def get_path_file(files_path):    print('开始获取文件列表')    f = open('./list.txt', 'a+', encoding='utf-8')    for root, dirs, files in os.walk(files_path, topdown=False):        for name in files:            f_p = os.path.join(root, name).replace("", "/")            if ".pdf" in f_p:                f.write(f_p + "")    f.close() # 生成文件def make_pdf(pdf_path, save_path, ppm_path):    # 通过路径获取文件集合    get_path_file(pdf_path)    # 读取列表文件，获取集合数据    f = open("./list.txt", 'r', encoding='utf8')    path_url = f.read()    file_data = path_url.split("")    count = len(file_data)    print("共计PDF文件数：%s" % count)    for index, v_path in enumerate(file_data):        # 路径为空，跳出        if not v_path:            continue        print('剩余：%s，本次生成文件：%s' % ((count - index - 2), v_path))        # 将 pdf 路径中的 斜线 替换        pdf_path = pdf_path.replace('', '/')        new_file_path = v_path.replace(pdf_path, save_path).replace('.pdf', '/')        images = convert_from_path(            pdf_path=v_path,  # 要转换的pdf的路径            dpi=200,  # dpi中的图像质量(默认200)            output_folder=ppm_path,  # 将生成的图像写入文件夹(而不是直接写入内存)            first_page=None,  # 要处理的第一页            last_page=None,  # 停止前要处理的最后一页            fmt="ppm",  # 输出图像格式            jpegopt=None,  # jpeg选项“quality”、“progressive”和“optimize”(仅适用于jpeg格式)            thread_count=4,  # 允许生成多少线程进行处理            userpw=None,  # PDF密码            use_cropbox=False,  # 使用cropbox而不是mediabox            strict=False,  # 当抛出语法错误时，它将作为异常引发            transparent=False,  # 以透明背景而不是白色背景输出。            single_file=False,  # 使用pdftoppm/pdftocairo中的-singlefile选项            poppler_path=None,  # 查找poppler二进制文件的路径            grayscale=False,  # 输出灰度图像            size=None,  # 结果图像的大小，使用枕头(宽度、高度)标准            paths_only=False,  # 不加载图像，而是返回路径(需要output_文件夹)            use_pdftocairo=False,  # 用pdftocairo而不是pdftoppm，可能有助于提高性能            timeout=None,  # 超时        )        # 不存在时跳出        if not images:            print('文件内容为空，跳出：%s' % v_path)            continue         # 文件名称        file_name = os.path.basename(v_path)        if '.pdf' not in file_name:            print("此文件非PDF文件")            continue        if not os.path.exists(new_file_path):            os.makedirs(new_file_path)        else:            # 存在目录 获取目录下文件数量            if images == len(os.listdir(new_file_path)):                continue        for i, image in enumerate(images):            image.save("./%s/%d.png" % (new_file_path, i), "PNG")            # print("正在保存第%s张图" % i)            # 删除 缓存目录        delete_file(ppm_path)  # 判断目录是否存在def get_path_status(path, status):    path_status = os.path.exists(path)    if not path_status and status:        os.makedirs(path)    elif not path_status:        print('%s，目录不存在' % path)        exit()  # 删除文件夹及其子文件def delete_file(path):    # 先把各个目录的文件删除完    for root, dirs, files in os.walk(path):        for file in files:            filepath = os.path.join(root, file)            try:                os.remove(filepath)                # print("删除文件%s成功" % file)            except:                print("删除文件%s异常" % file)  if __name__ == '__main__':    pro_dir = os.path.split(os.path.realpath(__file__))[0]    config_path = os.path.join(pro_dir, "config.ini")    if not os.path.exists(config_path):        print("无配置文件，请先填写")        exit()    con = configparser.ConfigParser()    print('开始读取配置文件')    # 读取配置    con.read(config_path, encoding='utf-8')     get_path_status(con['PATH']['file_path'], False)    get_path_status(con['PATH']['save_path'], True)    get_path_status(con['PATH']['cache_path'], True)     make_pdf(con['PATH']['file_path'], con['PATH']['save_path'], con['PATH']['cache_path'])    # 删除缓存空目录和资源列表文件    os.removedirs(con['PATH']['cache_path'])    os.remove('./list.txt')    print('任务处理完成')

配置文件使用的.ini文件，名称为config.ini。将配置文件和代码文件放置在同级目录中，内容如下：

[PATH]; 文件存储目录 格式如下： file_path = F:PDF文件PDF资料其他file_path = D:python2020-10-14【pdf转图片】pdf; 图片保存目录save_path = ./image/; 缓存生成目录cache_path = ./ppm/

四、运行截图

截图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/472681.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

.net pdf转图片_pdf2image类库实现批量pdf转图片

一、说明

二、安装poppler和pillow

三、编写代码

四、运行截图

相关文章

java 悬浮提示框_表格(悬浮框提示)

linux远程工具_【linux实操3.1】linux远程连接工具Secure的使用

IOS--UIAlertView的使用方法详细

afreecatv 回放下载_行车记录仪怎么看回放?行车记录仪停车后能自动录像吗

linux导出mysql下ssl证书_Linux系统下生成证书 https证书

lstm原始论文_有序的神经元——ON-LSTM模型浅析

malloc函数详解

c++ 航空管理系统_浅谈航站楼能源管理系统的设计与应用

mysql 线性表_线性表之顺序存储，基本操作

mac python安装太慢_【已解决】Mac中给pip3添加代理以提升下载python包的速度

集合数据源

LeetCode 1785. 构成特定和需要添加的最少元素（贪心）

insert和update 锁等待_黑龙F5智感双全智能锁全球首发，掀起惊艳风潮

java喷泉编码_好程序员Java教程分享使用JS实现简单喷泉效果

python 类继承父类初始化_python之子类继承父类时进行初始化的一些问题

『WPF』实现拖动文件到窗体（控件）

怎么更改苹果账户名称_番茄todo小组件背景怎么改苹果番茄todo小组件背景更改方法介绍...

LeetCode 1786. 从第一个节点出发到最后一个节点的受限路径数（迪杰斯特拉 + 拓扑排序）

java选择题多选题系统小程序_单选题与多选题判断得分(自动考试小程序,入门级)...

用python开启相机_如何用Python打开realsenseD435相机并获取相机参数