python读取扫描形成的pdf_Python利用PyPDF2库获取PDF文件总页码实例

Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去:

1、首先,要安装PyPDF2库,利用以下命令即可:

pip install PyPDF2

2、接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下:

from PyPDF2 import PdfFileReader

def get_num_pages(file_path):

"""

获取文件总页码

:param file_path: 文件路径

:return:

"""

reader = PdfFileReader(file_path)

# 不解密可能会报错:PyPDF2.utils.PdfReadError: File has not been decrypted

if reader.isEncrypted:

reader.decrypt('')

page_num = reader.getNumPages()

return page_num

3、这样就可以获得该pdf文件的总页数了,但是需要传递文件路径进去,因为需要读取这个文件。

4、以上内容仅供学习参考,谢谢!

补充知识:使用python合并pdf文件带书签

1、需求:

将几本纸质书进行了扫描,可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢?adoba acrobat工具支持,可是收费。我们平时用的都是adoba reader,只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。

所以考虑看看pyton实现。网上找了下python合并pdf的脚本,发现也没有添加书签的功能的,有添加书签的也不是很灵活。

所有对网上找的一个python程序进行了升级,可以实现合并pdf并每个章节加入书签。

文件准备:

先将扫描的pdf文件,每一章放到一个文件夹中,文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了,而不是默认将每页都生成书签。

2、程序代码

代码运行环境:python3

需要安装PyPDF2包:pip install PyPDF2

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

'''

本脚本用来合并pdf文件,支持带一级子目录的

每章内容分别放在不同的目录下,目录名为章节名

最终生成的pdf,按章节名生成书签

'''

import os, sys, codecs

from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger

import glob

def getFileName(filepath):

'''

获取当前目录下的所有pdf文件

'''

file_list = glob.glob(filepath+"/*.pdf")

# 默认安装字典序排序,也可以安装自定义的方式排序

# file_list.sort()

return file_list

def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]):

# 遍历filepath下的所有目录

for dir in os.listdir(filepath):

dirpathlist_out.append(filepath + '\\' + dir)

return dirpathlist_out

def merge_childdir_files(path):

'''

每个子目录下合并生成一个pdf

'''

dirpathlist = get_dirs(path)

if len(dirpathlist) == 0:

print("当前目录不存在子目录")

sys.exit()

for dir in dirpathlist:

mergefiles(dir, dir)

def mergefiles(path, output_filename, import_bookmarks=False):

# 遍历目录下的所有pdf将其合并输出到一个pdf文件中,输出的pdf文件默认带书签,书签名为之前的文件名

# 默认情况下原始文件的书签不会导入,使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中

merger = PdfFileMerger()

filelist = getFileName(path)

if len(filelist) == 0:

print("当前目录及子目录下不存在pdf文件")

sys.exit()

for filename in filelist:

f = codecs.open(filename, 'rb')

file_rd = PdfFileReader(f)

short_filename = os.path.basename(os.path.splitext(filename)[0])

if file_rd.isEncrypted == True:

print('不支持的加密文件:%s'%(filename))

continue

merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)

print('合并文件:%s'%(filename))

f.close()

# out_filename = os.path.join(os.path.abspath(path), output_filename)

merger.write(output_filename + ".pdf")

print('合并后的输出文件:%s'%(output_filename))

merger.close()

if __name__ == "__main__":

# 每个章节一个子目录,先分别合并每个子目录文件为一个pdf,然后再将这些pdf合并为一个大的pdf,这样做目的是想生成每个章节的书签

# 1.指定目录

# 原始pdf所在目录

path = "D:\spdf"

# 输出pdf路径和文件名

output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

# 2.生成子目录的pdf

# merge_childdir_files(path)

# 3.子目录pdf合并为总的pdf

mergefiles(path, output_filename)

3、程序使用

将要生成的pdf文件目录导入到程序指定目录下,例如我程序中的path是“D:\spdf”,然后指定最终输出的文件路径及文件名,我上面的output_filename是"D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

数据结果如下:

以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持python博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/410024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apache实验-目录别名

一、作用介绍 在一些情况下,我们的资源文件都在非/var/www/html目录下,例如/var/www/html/sohu。这样的话我们在输入网址的时候就需要在网站根目录下再输入完整的目录。所以我们可以定义一个别名来替代这个路径。可以简写网站的网址。 二、实例操作 目前…

python123第三周测验答案_python123 测验3: 基本数据类型 (第3周)

1.‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬# pow(x, 0.5)能够计算x的平方根,计算负数的平方根将产生:‪‬‪‬‪‬‪‬‪…

[html] 说下你对组件、模块、元素的理解,它们的区别在哪里?

[html] 说下你对组件、模块、元素的理解,它们的区别在哪里? 元素:元素是网页的一部分,在 XML 和 HTML 中,一个元素可以包含一个数据详情或者是一块文本或者是一张照片,亦或是什么也不包含。 一个典型的元素…

python中spark有什么功能_Spark SQL是什么,提供的主要功能有哪三种?

Spark SQL允许大家在Python、Java以及Scala中使用数据帧;利用多种结构化格式读取并写入数据;通过SQL进行大数据查询。Spark SQL属于Spark用于处理结构化与半结构化数据的接口。结构化数据是指那些拥有一定模式的数据,包括JSON、Hive Tables以及Parquet。模式意味着每…

黑苹果适合什么用途?_黑苹果系统,Ozmosis和四叶草、变色龙相比有什么区别和优势?...

黑苹果单系统,Ozmosis和四叶草、变色龙相比有什么区别和优势?黑苹果系统用于影视后期处理ozmosis由于调试灵活性差,每次调试都要刷bios,主板厂商提供的bios也就8mb,要把,ozmosis引导程序放进去,…

Apache的虚拟主机

一、虚拟主机的分类 基于IP的虚拟主机:一台服务器,多个ip,搭建多个网站 基于端口的虚拟主机:一台服务器,一个ip,利用不同端口,搭建多个网站 基于域名的虚拟主机:一台服务器&#xff…

[html] 给一个元素加下划线的方法有哪些?

[html] 给一个元素加下划线的方法有哪些&#xff1f; 使用 <u></u> 标签给元素添加 boder-bottom文字样式 text-decoration: underline;使用伪类或者子元素做绝对定位.target {position: relative; } .underline {position: absolute;bottom: 0;left: 0;right: 0;h…

使用Vim,让你工作效率更高

光标移动 w  移动至下一个单词的开头 b  移动至上一个单词的开头 e  移动至下一个单词的结尾 ge  移动至上一个单词的结尾 0  移动至一行开头 $  移动至一行结尾 f{char}  移动到char上  gg  文件开头 G  文件尾部 :ju  打印跳转列表 CTRL-O  跳至跳转列…

python数字转日期函数_【转】Python 日期和时间

本文转自&#xff1a;http://www.runoob.com/python/python-date-time.htmlPython 程序能用很多方式处理日期和时间&#xff0c;转换日期格式是一个常见的功能。Python 提供了一个 time 和 calendar 模块可以用于格式化日期和时间。时间间隔是以秒为单位的浮点小数。每个时间戳…

zabbix解决中文乱码

解决中文乱码 yum install -y wqy-microhei-fonts #解决方法 中文乱码 \cp /usr/share/fonts/wqy-microhei/wqy-microhei.ttc /usr/share/fonts/dejavu/DejaVuSans.ttf #或者是服务器没有安装中文转载于:https://www.cnblogs.com/zhaojingyu/p/11438733.html

[html] input元素size属性和width 的区别是什么?

[html] input元素size属性和width 的区别是什么&#xff1f; size:在MDN的定义&#xff1a;控件的初始大小。以像素为单位。但当type 属性为text 或 password时, 它表示输入的字符的长度。从HTML5开始, 此属性仅适用于当 type 属性为 text, search, tel, url, email,或 passwo…

[zz]linux下DHCP服务器配置(使用Ubuntu LTS 8.04)

linux下DHCP服务器配置&#xff08;使用Ubuntu LTS 8.04&#xff09; 转载请注明 原文&#xff1a;http://blog.csdn.net/xl_xunzhao/archive/2008/10/09/3044502.aspx xunzhao的博客已搬家至&#xff1a;http://xunzhaoxz.itpub.net 系统环境&#xff1a;Ubuntu 8.04 LTS服务器…

springboot启动过程_spring5/springboot2源码学习 -- spring boot 应用的启动过程

推荐阅读&#xff1a;Spring全家桶笔记&#xff1a;SpringSpring BootSpring CloudSpring MVC疫情期间“闭关修炼”&#xff0c;吃透这本Java核心知识&#xff0c;跳槽面试不心慌2020“闭关”跳槽季&#xff0c;啃透分布式三大技术&#xff1a;限流、缓存、通讯基本环境开发工具…

python concat去除重复值语句_Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值...

目录第二章(pandas)Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值数据合并在数据处理中&#xff0c;通常将原始数据分开几个部分进行处理而得到相似结构的Series或DataFrame对象&#xff0c;我们该如何进行纵向合并它们&#xff1f;这时我们可以选择用pd.co…

[html] noscript标签有什么作用?

[html] noscript标签有什么作用&#xff1f; noscript 标签用于当浏览器不支持 JS 的时候在页面上显示一些提示内容&#xff0c;但是也有一些缺点&#xff0c;比如如果是防火墙而不是浏览器禁用了 JS&#xff0c;非但 JS 执行不了&#xff0c;noscript 的内容也不会显示。比较…

ntp时间同步

一、NTP服务器就是利用NTP协议提供时间同步服务的 二、安装 # 系统自带ntp [rootoldboyedu ~]# rpm -qa ntp ntp-4.2.6p5-5.el6.centos.x86_64 # 如果没有就安装 yum -y install ntp三、配置ntp [rootVM-0-14 ~]# vim /etc/ntp.conf # restrict default kod nomodify notrap no…

不出来信号 quartus_男人一旦动了真情,会向你发出这6个“信号”不爱的人装不出来...

恋爱的时候&#xff0c;女人都想知道一个男人是否真的爱你&#xff0c;是否真的在乎你&#xff0c;女人常常在猜测男人的心思。而对一个聪明的女人来说&#xff0c;她们会用眼睛&#xff0c;用心观察身边的那个男人。有人说如果男人对女人动了真情&#xff0c;他会在女人面前表…

python turtle画烟花_用Python写一个绚丽的烟花!

Python人工智能 - 一节课快速认识人工智能必备语言:python - 创客学院直播室​www.makeru.com.cn 哈喽大家好&#xff0c;小编来教大家如何用Python写一个绚丽的烟花&#xff0c;下面我们开始吧~ Turtle库Turtle&#xff0c;也叫海龟渲染器&#xff0c;使用Turtle库画图也叫海龟…

zabbix详解

官网地址 https://www.zabbix.com/documentation/3.0/manual/config/items/itemtypes/zabbix_agent 使用率 转载于:https://www.cnblogs.com/zhaojingyu/p/11440579.html

python设置一个初始为0的计数器_python中统计计数的几种方法

以下实例展示了 count() 方法的使用方法&#xff1a;以上实例输出结果如下&#xff1a;1) 使用字典dict()循环遍历出一个可迭代对象中的元素,如果字典没有该元素,那么就让该元素作为字典的键,并将该键赋值为1,如果存在就将该元素对应的值加1.2) 使用defaultdict()defaultdict(p…