python合并多个pdf_python合并多个pdf文件

假设您有个无聊的工作,将几十个PDF文档合并成一个PDF文件。 他们每个都有封面页作为第一页,但你不希望在最终结果中重复覆盖表。 即使有有很多免费的程序来组合PDF,其中许多只是合并整个文件在一起。 让我们编写一个Python程序来自定义哪些页面你想要的是组合PDF。从高层次来看,这是程序将要做的事情:

查找当前工作目录中的所有PDF文件。

对文件名进行排序,以便按顺序添加PDF。

将每个PDF的每个页面(不包括第一页)写入输出文件。

在实现方面,您的代码需要执行以下操作:

调用 os.listdir() 来查找工作目录中的所有文件,删除所有非PDF文件。

调用Python的sort()列表方法来按字母顺序排列文件名。

为输出PDF创建PdfFileWriter对象。

遍历每个PDF文件,为其创建PdfFileReader对象。

在每个PDF文件中循环遍历每个页面(第一页除外)。

将页面添加到输出PDF。

将输出PDF写入名为allminutes.pdf的文件。

对于此项目,请打开一个新的文件编辑器窗口并将其另存为 “combinePdfs.py”

Step 1:找到所有的PDF文件

首先,您的程序需要获取所有扩展名为.pdf的文件的列表

当前的工作目录并对它们进行排序。 让你的代码看起来像

以下:

在这里插入代码片

在shebang线和关于什么的描述性评论之后程序没有,这段代码导入了os和PyPDF2模块。该

os.listdir(’.’) 调用将返回当前工作中的每个文件的列表目录。 代码循环遍历此列表,并仅添加带有.pdf扩展的那些文件pdfFiles。之后,此列表按字母顺序排序,使用key = str.lower关键字参数对sort() 进行排序。创建PdfFileWriter对象以保存组合的PDF页面。最后,一些评论概述了该计划的其余部分。

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# TODO: Loop through all the PDF files.

# TODO: Loop through all the pages (except the first) and add them.

# TODO: Save the resulting PDF to a file.

第二步:打开每一个 PDF 文件

现在程序必须读取pdfFiles中的每个PDF文件。 添加以下内容:

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# TODO: Loop through all the pages (except the first) and add them.

# TODO: Save the resulting PDF to a file.

对于每个PDF,循环通过以读二进制模式(以’rb’作为第二个参数)调用open() 。 open()调用返回一个File对象,它被传递给PyPDF2.PdfFileReader() 。

第三步: 添加每一页

对于每个PDF,您都希望遍历除第一个页面之外的每个页面。 加上这个代码到你的程序:

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# Loop through all the pages (except the first) and add them.

for pageNum in range(1, pdfReader.numPages):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

# TODO: Save the resulting PDF to a file.

for循环中的代码将每个Page对象分别复制到PdfFileWriter对象。 请记住,您想跳过第一页。 以来

PyPDF2认为0是第一页,你的循环应该从1 开始,然后转到但不包括pdfReader.numPages中的整数。

第四步: 保存结果

在这些嵌套的for循环完成循环之后,pdfWriter变量将会循环包含PdfFileWriter对象,其中包含所有PDF的页面。最后一步是将此内容写入硬盘驱动器上的文件。 将此代码添加到你程序中:

#!/usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('/home/hux/books/python'):

if filename.endswith('.pdf'):

pdfFiles.append('/home/hux/books/python/'+filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj, strict=False)

for pageNum in range(1, pdfReader.numPages):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

pdfOutput = open('allminutes.pdf', 'wb')

pdfWriter.write(pdfOutput)

pdfOutput.close()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/534883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python class类_python类class基础

44、class类:一、类定义的一般形式:1、简单的形式:实例化对象没有自己独有的数据属性。>>> class fistclass():... data1 hello world ### >这是类的数据属性或类成员属性。... def printdata(self): ###>这是类的方法&#…

java文件序列化_Java序列化与反序列化,文件操作

参考两篇博客:http://blog.csdn.net/moreevan/article/details/6697777http://blog.csdn.net/moreevan/article/details/6698529针对第二篇博客,看了下面的评论,发现子类输出的书号其实是父类的,书名是自己先添加的成员变量&#…

python 彻底解读多线程与多进程_python 多进程与多线程浅析

python多线程是伪多线程,同时间最多只有一个线程在执行,但这样并不代码python的多线程没有作用,对于IO密集型的系统,python的多线程还是能极大的提升性能~关于python伪多线程可以去了解python GIL的概念。以下代码涉及…

python什么软件开发好_python怎样才能学好?python软件开发什么

众所周知,Python是近年来热门的编程语言之一,吸引了很多人参与到it行业的Python开发中来,但是如何学习Python编程呢?对于每一个初学Python的朋友来说,估计有点困惑。那么我们如何才能学好Python呢?学习Python需要什么技能?有些…

java 设计模式原则_Java设计模式的七大原则

设计原则名称定 义使用频率单一职责原则(Single Responsibility Principle, SRP)一个类只负责一个功能领域中的相应职责。★★★★☆开闭原则(Open-Closed Principle, OCP)软件实体应对扩展开放,而对修改关闭。开闭原则的关键在于抽象化。★★★★★里氏代换原则(L…

python自定义模块和三方模块_python基础知识8——模块1——自定义模块和第三方开源模块...

模块的认识模块,用一砣代码实现了某个功能的代码集合。类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合。而对于一个复杂的功能来,可能需要多个函数…

dhcp只能分配与路由器相同网段么_路由器的桥接详解

网上关于路由器无线桥接的教程很多,让你注意那注意这的,都没有说明白。今天,我来试着缕清它们间的关系!1、主路由器这是我主路由器目前的状态,其中IP地址是我在上级光猫路由的可用ip段192.168.1.2~254里选的一个&#…

逆序对java_逆序对

求逆序对问题用归并排序的时间复杂度比暴力算法更低。假设有一个数组{8,1,2,5,7,4,3,6}首先归并排序第一次对数组进行分割 8 1 2 5 7 4 3 6二次分割 8 1 25 74 3…

python123测验9程序题答案_Django ORM 练习题及答案_python_脚本之家

1.modles中表结构#出版社class Publisher(models.Model):name models.CharField(max_length32)city models.CharField(max_length32)def __str__(self):return "".format(self.id, self.name)#书籍class Book(models.Model):title models.CharField(max_length32)…

java父类shape_为什么该父类无法调用其子类.__ShapeCircle_public_perimeter_getType_shapej__169IT.COM...

子类:public class ShapeCircle extends Shape{protected double r;public ShapeCircle(){setside(0.0);}public ShapeCircle(double r){setside(r);}public void setside(double r){this.rr;}public double perimeter(){return Math.PI*2*r;}public String getType(){return &…

python中双冒号的作用_python中双冒号

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

java电子通讯录毕业设计_(C)JAVA001电子通讯录(带系统托盘)

打开Server Socket,创建一个服务器型套接字和一个普通套接字,服务器型套接字在指定端口为客户端请求的Socket 服务;? 使用ServerSocket类的accept()方法使服务器型套接字处于监听状态并把监听结果返回给普通套接字;? 为该普通套接字创建输入…

python进行数据分析需要安装哪两个库_对Python进行数据分析_关于Package的安装问题...

一、为什么要使用Python进行数据分析?python拥有一个巨大的活跃的科学计算社区,拥有不断改良的库,能够轻松的集成C,C,Fortran代码(Cython项目),可以同时用于研究和原型的构建以及生产系统的构建。二、Python的优势与劣势&#xff…

java orcl自动_Oracle自动生成编号

祝大家新年快乐,有任何问题可与我联系:今天用JAVA向Oracle数据库中插数据时,每次都要去计算ID,觉得好麻烦,于是想到了用数据库自带的ID来做,具体如下:1、首先得创建一序列序列(SEQUENCE)序列是一…

bat批处理执行python_.bat批处理添加Python任务

一、常用命令含义例一、多进程python 任务 -- start 命令echo offstart python C:\Users\ntitled\n\update_restt\test_bat.pypython C:\Users\ntitled\iin\update_restt\test_bat.pypython C:\Users\ntitled\jin\update_restt\test_bat2.pyexit1、它的作用是让执行窗口中不显…

import java.awt.BorderLayout;_Swing-布局管理器之BorderLayout(边界布局)-入门

边界布局管理器(BorderLayout)把容器的的布局分为五个位置:CENTER、EAST、WEST、NORTH、SOUTH。依次对应为:上北(NORTH)、下南(SOUTH)、左西(WEST)、右东(EAST),中(CENTER),如下图所示。特征:l 可以把组件放在这五个位…

一分钟学会python编程_用Python教你一分钟检验出来!不用群发_编程语言_Python课程_Python教程_课课家...

Python大法已经被网友们玩儿的出神入化了, 最近有网友用Python写了一个脚本, 这个脚本能够自动检测你的微信好友中谁把你删除了? 而且不需要群发消息, 整个过程好友们是完全不知情的。使用范围Mac和Linux经过测试, 确认可用, Windows等待大家的测试反馈, 可以在评论中反馈哦~~…

java 建造者实际中的用法_java中j建造者模式详解和使用方法

建造者模式(Builder Pattern)使用多个简单的对象一步一步构建成一个复杂的对象。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。一个 Builder 类会一步一步构造最终的对象。该 Builder 类是独立于其他对象的。介绍意图:将一个复杂的…

python垃圾回收机制为什么标记能解决循环引用问题_python 关于循环引用以及标记清除的问题...

1 在循环引用的情况下,引用计数就不好事了,这时候就需要用到标记清除循环引用的危害: 会造成内存溢出,因为循环引用计数不可能为零解决方法:标记清除2 关于标记清除的效率问题(低)引用计数引用一次就加1,值减到0以后就应该被回收,那这里就产生了一个问题cpython的垃圾回收机制不…

jsp测试mysql_Jsp登陆与MySQL对接验证

最近在做一个Web项目,账户登陆验证是Web项目中必不可少的环节,所以需要阶段性的记录,帮助自己更好的掌握其中的知识。Jsp登陆涉及到POST方法参数获取,以及MySQL数据库信息的获取。可能因为自己是新手,刚开始写的项目有…