Python 自动化之修理PDF文件(二)

PDF文件_合并与拆分PDF文档Pro版本


文章目录

  • PDF文件_合并与拆分PDF文档Pro版本
  • 前言
  • 一、要做成什么样子
  • 二、主要用到的函数
  • 三、基本思路
    • 1.引入库
    • 2.创建用户输入模块
    • 3.确定主框架
  • 四、文档合并代码模块
    • 1.用户输入和函数调用
    • 2.引导用户输入文档信息
    • 3.合并文档内容
    • 4.命名新文档+生成路径
    • 5.保存文档+结束调用
  • 五、文档拆分代码模块
    • 1.确定基本框架
    • 2.用户输入和前提准备
    • 3.每一页都拆分代码模块
    • 4.指定页码拆分代码模块
      • 4.1.用户输入和创建对象
      • 4.2.遍历暂存指定页码内容
      • 4.3.指定路径生成指定名称的新PDF
  • 总结


前言

`
上一篇讲了pdf转文字的操作,这篇我们接着讲如何去拆分和合并pdf文件。用过的应该知道,在某软件上虽然可以用,但是也是存在限制的,文档页数过多就需要会员了。

那么怎么样才能不花钱(这个很重要)就能使用呢?自己写一个(# ^ . ^ #)
Alt


一、要做成什么样子

  1. 任意数量、页数的pdf文档,只要你电脑不冒烟~ ~ ~ ~
  2. 可按顺序合并任意数量的pdf文档。
  3. 可按顺序拆分任意页数的pdf文档。
  4. 可任意截取拆分掉pdf文档的某一段。
  5. 拆分的文档会按《原名+第a页》、《原名+第a页_第b页》命名
  6. 合并的文档会提示你给它取个新名字。
  7. 指定位置保存产生的新文件。

目前就想到这么些,后续有新的点子我再往上搞

二、主要用到的函数

都是PyPDF2 库的东西。
一个是PdfReader,用来读取pdf文档数据的;二是PdfWriter,用来写入前面读取到的数据。

三、基本思路

1.引入库

代码如下:

from PyPDF2 import PdfWriter
import PyPDF2

2.创建用户输入模块

代码如下:

print('请选择您要的操作(1 合并  2 拆分) :',  end='')
Go = input()

这里会提示用户是要合并还是拆分pdf文档,输入不同的数字会进入到不同的模式中去。
end=’ '的作用是不换行,可以在文字提示的后面直接输入。


3.确定主框架

代码如下:

if Go == '1':    #文档合并......
elif Go == '2':    #文档拆分......

上面也提到了,涉及到pdf的两个动作:合并和拆分。所以我这里采用if-----elif----的结构来处理。

接下来就是两个代码模块的编写了。这里我先写文档合并,后写文档拆分。


四、文档合并代码模块

1.用户输入和函数调用

代码如下:

		#提示用户输入print('请输入需要合并的pdf文档个数:', end='')numbers_pdf = int(input())#函数调用merger = PdfWriter()

需要合并几个文档就输入数字几就ojbk。
这里调用的函数下面会用到。PdfWriter 对象通常被用来合并PDF文件,或者创建新的PDF文档。


2.引导用户输入文档信息

代码如下:

    #创建空列表,用来存储pdf名称list_pdf = []#进行相应次数的遍历循环for number_pdf in range(numbers_pdf):#提示用户按照固定格式输入print(f'请按顺序输入第 {number_pdf+1} 个pdf(例子:E:\BaiduNetdiskDownload\你好.pdf):', end='')old_pdf = input()#用户每次输入都会被添加到列表当中list_pdf.append(old_pdf)

这段代码的意思是你合并几个文档,程序就会提示你几次输入文档信息。
需要注意的是,输入的先后顺序也代表了后续合并后内容的先后顺序。


3.合并文档内容

代码如下:

    for pdf in list_pdf:merger.append(pdf)

代码很少,意思就是遍历刚才用户输入的文档信息,逐个进行合并。


4.命名新文档+生成路径

代码如下:

    #提示输入文档名称print('已合并完,请输入新文件名称(例子:aaa)不用添加扩展名:', end='')new_pdf_name = input()# 指定保存 .pdf 文件的完整路径和名称output_dir = "D:/"  # 替换为您的实际输出目录output_file_name = f"{new_pdf_name}_合并.pdf"output_path = output_dir + output_file_name

第一段代码是提示用户输入新文档的名字,下面会用到。
第二段代码的意思是我先指定一个路径,然后生成文档的名称 new_pdf_name_合并.pdf,最后对它俩进行字符串拼接,这样后面才能根据output_path信息在指定路径下保存pdf文档。


5.保存文档+结束调用

代码如下:

    merger.write(output_path)print('合并好了去查收吧')merger.close()

提示合并好了。然后就去指定目录查看就行了。

合并文档到这里就结束了。


五、文档拆分代码模块

将拆分分为两部分,一是每一页都拆出来形成一个新文档;二是有用户指定范围,形成新文档。所以,在这里又会用到if----elif—结构,相当于嵌套里的嵌套。

这里我会先写每一页都拆,后写指定范围。

1.确定基本框架

代码如下:

    ..........       #用户输入和前提准备if split == '1':    #每一页都拆......elif split == '2':    #指定范围拆......

上面也刚说了,这里就不废话了。


2.用户输入和前提准备

代码如下:

        #提示用户输入要拆分的PDF文档print('请输入您要查分的文件(例子:E:\BaiduNetdiskDownload\你好.pdf):', end='')chaifen_pdf = input()open_pdf = open(chaifen_pdf, 'rb')       #以二进制形式打开文档read_pdf = PyPDF2.PdfReader(open_pdf)    #读取上面打开的PDF文件内容get_pdf_pages = len(read_pdf.pages)      #通过read_pdf获取PDF的总页数print(f"该文件共有{get_pdf_pages}页")#提示用户选择拆分模式print('全部拆分请输入1 指定位置查分请输入2 :', end='')split = input()

先是提示用户输入要拆分的文档;然后程序会打开并读取文档内内容,告诉我们文档总共有多少页;最后是提示用户选择哪种模式拆分。
我就不细说了,代码注释写的很明白。


3.每一页都拆分代码模块

代码如下:

            #遍历文档的每一页for get_pdf_page in range(get_pdf_pages):#读取文档当前遍历的页page = read_pdf.pages[get_pdf_page]# 创建一个新的PdfWriter对象pdf_writer = PdfWriter()# 将当前页添加到新的PdfWriter对象中pdf_writer.add_page(page)# 获取用户输入的文件名,不包括路径pdf_file_name = chaifen_pdf.split('\\')[-1]  # 使用 \\ 分隔符 去掉路径pdf_base_name = pdf_file_name.split('.')[0]  # 去掉扩展名# 指定保存 .pdf 文件的完整路径和名称output_dir = "D:/"  # 替换为您的实际输出目录output_file_name = f"{pdf_base_name}_第{get_pdf_page + 1}页.pdf"output_path = output_dir + output_file_namepdf_writer.write(output_path)pdf_writer.close()print('拆分好了,快去看一下吧。')

由于基本上都是在for_in range()结构的循环下,我就一块写了,要不让分开写很容易看混。
整体上分为五部分:

  1. 第一部分:读取文档当前遍历的页,然后创建一个新的PdfWriter对象,最后将当前页添加到新的PdfWriter对象中(就是生成一页的文档),三者缺一不可。如果没有PdfWriter对象,会出现第n份文档有n页内容。
  2. 第二部分和第三部分可以看我上一个文档的《第四大段第5小节》有详细解释。这是链接:https://blog.csdn.net/weixin_57061292/article/details/134790966
  3. 第四部分:按照前几分部分的设置进行文件的保存,还有结束函数的调用(有始有终嘛)。
  4. 第五部分:友好提示,出现上面那几个字就代表搞定了。

4.指定页码拆分代码模块

4.1.用户输入和创建对象

代码如下:

            print('请输入开始页 :', end='')start_pages = int(input())print('请输入结束页 :', end='')end_pages = int(input())# 创建一个新的PdfWriter对象pdf_writer = PdfWriter()

两部分,一是引导用户输入需要把从哪一页到哪一页的内容拆出来;二是函数的调用,没啥好说的(这是主力)。


4.2.遍历暂存指定页码内容

代码如下:

            for get_pdf_page in range(start_pages-1, end_pages):page = read_pdf.pages[get_pdf_page]# 将当前页添加到新的PdfWriter对象中pdf_writer.add_page(page)

这个结构用过很多次了,就不赘述了。
意思就是遍历我们选中的页,先把它们暂存起来留到到后面用。


4.3.指定路径生成指定名称的新PDF

代码如下:

           # 获取用户输入的文件名,不包括路径pdf_file_name = chaifen_pdf.split('\\')[-1]  # 使用 \\ 分隔符 去掉路径pdf_base_name = pdf_file_name.split('.')[0]  # 去掉扩展名# 指定保存 .pdf 文件的完整路径和名称output_dir = "D:/"  # 替换为您的实际输出目录output_file_name = f"{pdf_base_name}_第{start_pages}_{end_pages}页.pdf"output_path = output_dir + output_file_namepdf_writer.write(output_path)pdf_writer.close()print('拆分好了,快去看一下吧。')

各位同志,看不懂的话。这里请一定要参考 《 3.每一页都拆分代码模块》 和我的上一篇博客,这是链接:https://blog.csdn.net/weixin_57061292/article/details/134790966


总结

这就是PDF拆分和合并的全部内容了,看看这篇的反馈吧。有需要的话。后面我再找找PDF还有哪些操作大家还常用 给大家写出来。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/218964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传输层协议:TCP协议和UDP协议

文章目录 传输层协议:TCP协议和UDP协议一、TCP协议介绍(面向连接,稳定,慢)1、TCP特性2、TCP报文格式3、TCP三次握手4、TCP四次挥手5、常用的TCP端口号及其功能 二、UDP协议介绍(无连接,不稳定&a…

【ET8】4.ET8入门-ECS解析

ECS ECS组件生命周期 参考连接 ⼀种类ECS设计范式的介绍 3.3一切皆实体 4.1组件式设计 【ET框架课程】04-Entity&Component&System_哔哩哔哩_bilibili 【ET框架课程】05-ECS组件生命周期_哔哩哔哩_bilibili

深度学习学习顺序梳理

https://www.bilibili.com/video/BV1to4y1G7xq/?spm_id_from333.999.0.0&vd_source9607a6d9d829b667f8f0ccaaaa142fcb 1.吴恩达机器学习课程 已学完,时间较久了,后续可以重新听一遍,整理一下笔记 2. 白板推导读西瓜书 统计学习方法看…

选择流量回溯分析系统的关键因素

在网络安全和性能优化的背景下,选择适用的流量回溯分析系统变得至关重要。这些系统帮助组织深入了解网络流量,追踪异常行为,并提供关键的信息以加强网络安全。本文将介绍选择流量回溯分析系统时需要考虑的关键因素,以帮助组织做出…

微信小程序、uniapp仿网易云UImusic播放器(附源码)

一、uni-app框架介绍 1.什么是 uni-app uni-app 是一个使用vue的语法 微信小程序的标签和API的跨平台前端框架,开发者编写一套代码,可编译到iOS、Android、H5、小程序等多个平台,几乎覆盖所有流量端。 uni-app 具有跨端数量更多、性能体验…

Python去除字符串中空格(删除指定字符)的3种方法

str 提供了如下常用的方法来删除空白: strip():删除字符串前后的空白。 lstrip():删除字符串前面(左边)的空白。 rstrip():删除字符串后面(右边)的空白。 需要说明的是&#xff…

【数据结构】贪心算法

一.贪心算法的定义 贪心算法是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,只做出在某种意义上的局部最优解。 贪心算法的结果是最优解的最好近似。 优点:简单,高效。 缺点&…

百岁时代即将来临,原知因成为消费新潮流

什么叫长寿时代?泰康保险首席执行官陈东升指出:长寿时代,就是百岁人生即将来临,人人带病长期生存。而在这个时代,人类最大的变化在于“生命尺度的改变”,比如过去20岁是年轻人,40岁中年人,60岁…

哈工大《软件工程专业导论》复习指南

哈工大软件工程专业导论复习指南 文章目录 哈工大软件工程专业导论复习指南前言引言——软件工程专业导论课程引言第一章 软件工程专业初步认知第二章 软件体系结构与生命周期第三章 软件需求工程第四章 软件设计与实现第五章 软件质量与软件工程管理第六章 软件工程教育与职业…

经典综述|88.1分力作!土壤塑料际

柏林-勃兰登堡高级生物多样性研究所在《Nature reviews microbiology》期刊上(IF88.1)发表的“The soil plastisphere”研究论文中,综述了塑料对土壤的潜在影响。对土壤塑料际特性和微生物群落以及这些群落影响过程的阐明仍处于早期阶段,但进展的步伐很快…

提升测试工具开发的思考

本文针对测试部效率提升测试工具开发、管理、维护暴露出来的问题的一些思考以及一些个人改进观点。 写在前面 本文提到的效率提升测试工具不是指的部门中固有的自动化测试工具,这里提到的测试工具统一指测试人员在工作之余自主开发用于期望替代重复、繁琐、耗时的手…

Nature 确认:大语言模型只是没有感情的「学人精」

DeepMind、EleutherAI 科学家提出,大模型只是在角色扮演。 ChatGPT 爆火后,大语言模型一跃而至,成为了行业与资本的宠儿。而在人们或是猎奇、或是探究地一次次对话中,大语言模型所表现出的过度拟人化也引起了越来越多的关注。 其实…

【数据结构】哈希经典应用:布隆过滤器(哈希+位图)——[深度解析](9)

前言 大家好吖,欢迎来到 YY 滴 数据结构 系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴 数据结构 专栏!更多干货持续更新!以下是传送门! 目录 一.布隆过滤器产生的…

第31期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…

Plasmocin® Treatment (ant-mpt)可用于干细胞支原体污染清除

Plasmocin™作为Invivogen的支原体抗生素产品之一,受国内外许多科研工作者使用并大力推广。其包含大环内酯物及对苯二酚两种主要成分,可有效作用于支原体复制的蛋白合成阶段和DNA复制阶段,只需两周即可清除支原体污染,并且不会影响…

【CANoe】CANoe手动发送XCP报文读取观测量

文章目录 1、硬件连接:配置CANoe的CAN端口,连接到ECU标定对应的CAN口2、配置CAN IG模块报文:连接XCP,读取观测量,断开XCP3、报文解析4、参考资料 1、硬件连接:配置CANoe的CAN端口,连接到ECU标定…

构筑安全之城:迅软DSE助力大型建筑企业打造数据防泄密方案

电子文件如今已成为各大建筑机构和设计院进行信息存储的主要方式,以及信息交换的重要载体。而对于如何保护好单位内的设计图纸、工程方案等重要资料的数据防泄密问题,就需要相关单位规划好一套合规有效的数据防泄密解决方案。 企业简介 该企业是我国最早…

压缩pdf怎么压缩又小又清晰?超级实用!

当PDF文件过大时,很容易遇到无法上传等现象,这时候我们可以借助一些专业的压缩工具,将PDF文件压缩变小,如果你还不知道怎么做,下面就来看下具体的压缩方法吧。 方法一:使用嗨格式压缩大师 1、打开电脑上安…

Leetcode 78 子集

题意理解: 求一个集合的所有子集。该集合中没有重复元素。 首先明确什么是子集:子集中的元素都在全集里。 [1,2,3] 子集:[]、[1]、[2]、[3]、[12]、[13]、[23]、[123] 注意:[]空集是所有集合的子集。 解题思路: 类似于…

【obs】官方最强插件obs-websocket入门

▒ 目录 ▒ 🛫 导读需求开发环境 1️⃣ obs-websocket简介OBS版本说明obs-websocket版本说明安装(27.x版本OBS)配置插件 2️⃣ OBS-web介绍特征使用方法-5.xhttp vs https 3️⃣ obs-websocket-js开发tester.html 4️⃣ 其它开源项目obs-stud…