PDF操作——批量删除末页

一、说明

由于PDF末页为空白页或者是免责声明需要删除,涉及的文件比较多,因此写了一小段代码进行处理。

二、完整架构流程

这个代码的整体架构流程可以分为以下几个步骤:

  1. 导入所需的库:首先,代码导入了PyPDF2os两个库。PyPDF2是一个Python库,用于处理PDF文件,而os库提供了与操作系统交互的功能。
  2. 定义find_pdf函数:这个函数用于获取指定文件夹中所有的PDF文件路径。它通过遍历文件夹及其子文件夹,检查每个文件的扩展名,并返回所有PDF文件的路径列表。
  3. 定义delete函数:这个函数用于删除PDF文件的最后一页。它首先打开指定的PDF文件,然后创建一个PDF读取器对象来读取文件内容。接着,它获取文件的总页数,并创建一个新的PDF写入器对象。这个函数遍历除最后一页外的所有页面,将这些页面添加到写入器对象中。最后,它将写入器对象中的页面写入到新的PDF文件中,并关闭文件流。
  4. 主程序:在主程序部分,首先调用find_pdf函数获取指定文件夹中所有PDF文件的路径列表。然后,它遍历这个列表,对每个文件调用delete函数,以删除每个文件的最后一页。最后,它将处理后的文件保存到新的文件夹中。

  请注意,这段代码仅是以实现主要功能为主,并没有处理可能的异常情况,例如打开文件失败、读取文件失败、写入文件失败等。在实际使用中,还需要添加适当的错误处理代码来确保程序的健壮性。

三、完整代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2023-12-31 15:24
# @Author : Leuanghing Chen
# @Blog : https://blog.csdn.net/weixin_46153372?spm=1010.2135.3001.5421
# @File : pdf尾页删除.py
# @Software : PyCharmimport PyPDF2
import os# 获取文件夹中的pdf文件路径
def find_pdf(path):filename_list = []archives_path_list = []# 读入文件for root, dirs, files in os.walk(path):# 遍历文件时以pdf文件为依据,获取文件名filename_list和文件路径archives_path_listfor file in files:if file[-4:] == '.pdf' or file[-4:] == '.PDF':name = os.path.join(root, file).split("\\")[-1]filename_list.append(name.replace('.pdf', '').replace('.PDF', ''))archives_path_list.append(os.path.join(root, file))return archives_path_list# 删除末页(old_path为旧路径,new_path为新路径。新旧文件分为两个文件夹,主要用来对比,也可以改成覆盖原文件的方式)
def delete(old_path, new_path):# 打开要处理的PDF文件pdf_file = open(old_path, 'rb')# 创建一个PDF读取器对象pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 获取PDF文件的总页数num_pages = pdf_reader.getNumPages()# 创建一个新的PDF写入器对象pdf_writer = PyPDF2.PdfFileWriter()# 将所有除了最后一页以外的页面添加到写入器对象中for page_num in range(num_pages - 1):page = pdf_reader.getPage(page_num)pdf_writer.addPage(page)# 将写入器对象中的页面写入到新的PDF文件中output_file = open(new_path, 'wb')pdf_writer.write(output_file)# 关闭文件流pdf_file.close()output_file.close()if __name__ == '__main__':path = find_pdf(r'C:\Users\LTCH\Desktop\新建文件夹 (2)')for i in range(len(path)):delete(path[i], path[i].replace('新建文件夹 (2)', '新建文件夹 (3)'))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/658001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Optimism的挑战期

1. 引言 前序博客: Optimism的Fault proof 用户将资产从OP主网转移到以太坊主网时需要等待一周的时间。这段时间称为挑战期,有助于保护 OP 主网上存储的资产。 而OP测试网的挑战期仅为60秒,以简化开发过程。 2. OP与L1数据交互 L1&#xf…

探索智能巡检机器人深度学习的奥秘

机器人深度学习(Robot Deep Learning)是指利用深度学习技术,使机器人能够从大量数据中学习和提取特征,进而实现自主感知、决策和行动的能力。通过深度学习算法,机器人可以从传感器获取的数据中自动学习模式和规律&…

微信开放平台第三方开发,实现代小程序认证申请

大家好,我是小悟 微信小程序认证整体流程总共分为五个环节:认证信息填写、平台初审、管理员验证、供应商审核和认证成功。 服务商可以代小程序发起认证申请。平台将对认证基础信息进行初步校验。通过后,平台将向管理员微信下发模板消息&…

Redis(十)SpringBoot集成Redis

文章目录 连接单机mvnYMLController.javaRedisConfig.java 连接集群YML问题复现 RedisTemplate方式 连接单机 mvn <!--Redis--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</art…

SRC实战 | 信息泄露挖掘

本文由掌控安全学院 - 叴龙 投稿 1. 信息搜集 首先老语法先搜集一波&#xff0c;毕竟没有钓鱼和sg的能力&#xff0c;只能找注册站去挖挖了。 web.title”XX大学”&&web.body”忘记密码”&&web.body”注册” 2. 漏洞挖掘 这里找到一个可以注册网站接口&…

蓝桥杯 第 1 场 小白入门赛

目录 1.蘑菇炸弹 2.构造数字 3.小蓝的金牌梦 4.合并石子加强版 5.简单的LIS问题 6.期望次数 1.蘑菇炸弹 我们直接依照题目 在中间位置的数进行模拟即可 void solve(){cin>>n;vector<int> a(n1);for(int i1;i<n;i) cin>>a[i];int ans0;for(int i2;i…

WGS 84框架发布新版本-WGS 84(G2296)

根据NGA发布的最新消息&#xff0c;WGS 84框架发布了新版本-WGS 84(2296)&#xff0c;上一版本是G2139。以下是相关信息。 WGS 84 TERRESTRIAL REFERENCE FRAME (TRF) NGA implemented a new realization of the WGS 84 TRF, named WGS 84 (G2296) in its orbit and clock pr…

XSS haozi靶场通关笔记

XSS靶场地址&#xff1a;alert(1) 靶场的要求是输出一个内容为1的弹窗&#xff1b;这个靶场限制了输入位置只能是input code&#xff1b;而且浏览器发送内容时会自动进行url编码&#xff1b;所以重点考察的是代码的分析和基础payload构造&#xff1b;一切完成在当前页面&#…

【数据结构】链表(单链表实现+测试+原码)

1.链表 1.1 链表的概念及结构 概念&#xff1a;链表是一种物理存储结构上非连续、非顺序的存储结构&#xff0c;数据元素的逻辑顺序是通过链表 中的指针链接次序实现的 。 现实中&#xff1a;链表就像是一列动车&#xff0c;一节连着一节 数据结构中的链表 注意: 1.从上图可看出…

解决php date()输出时间与Linux系统不一致

一、在Docker容器创建好之后&#xff0c;可能会发现容器时间跟宿主机时间不一致 我们需要同步它们的时间&#xff0c;让容器时间跟宿主机时间保持一致。有以下几种方法&#xff1a; 方法1&#xff1a; 在创建 Docker 容器时&#xff0c;加上 “-v /etc/localtime:/etc/local…

python管理依赖关系库

一、poetry Poetry 是一个用于管理 Python 项目依赖关系和构建工具的工具。它提供了一个简单的命令行界面&#xff0c;可以帮助您创建、管理和发布 Python 项目&#xff0c;使用方法&#xff1a;command [options] [arguments] 官网&#xff1a;https://python-poetry.org/doc…

React16源码: React中LegacyContext的源码实现

LegacyContext 老的 contextAPI 也就是我们使用 childContextTypes 这种声明方式来从父节点为它的子树提供 context 内容的这么一种方式遗留的contextAPI 在 react 17 被彻底移除了&#xff0c;就无法使用了那么为什么要彻底移除这个contextAPI的使用方式呢&#xff1f;因为它…

知识点积累系列(一)golang语言篇【持续更新】

云原生学习路线导航页&#xff08;持续更新中&#xff09; 本文是 知识点积累 系列文章的第一篇&#xff0c;记录golang语言相关的知识点 1.结构体的mapstructure是什么 mapstructure:"default" mapstructure是一个Go语言的库&#xff0c;用于将一个map中的值映射到…

C语言王道第八周一题

Description 初始化顺序表&#xff08;顺序表中元素为整型&#xff09;&#xff0c;里边的元素是 1,2,3&#xff0c;然后通过 scanf 读取一个元素&#xff08;假如插入的是 6&#xff09;&#xff0c;插入到第 2 个位置&#xff0c;打印输出顺序表&#xff0c;每个 元素占 3 个…

添加了gateway之后远程调用失败

前端提示500&#xff0c;后端提示[400 ] during [GET] to [http://userservice/user/1] 原因是这个&#xff0c;因为在请求地址写了两个参数&#xff0c;实际上只传了一个参数 解决方案&#xff1a;加上(required false)并重启所有相关服务

华为HI模式与华为智选模式的左右互博

从去年开始&#xff0c;华为的智驾成果便不断释放出来&#xff0c;一边是号称遥遥领先的问界系列的大卖&#xff0c;对外展示了华为强悍的科技实力&#xff1b;另一边是华为汽车BU的分拆融资&#xff0c;在业界引发了广泛关注&#xff0c;再次让外界看到了华为在“造车”上的立…

【程序员英语】【美语从头学】初级篇(入门)(笔记)Lesson13(买东西)(餐厅点餐事宜;询问有无座位;食物如何调理:牛排、咖啡等;菜单等相关)

《美语从头学初级入门篇》 注意&#xff1a;被 删除线 划掉的不一定不正确&#xff0c;只是不是标准答案。 文章目录 Lesson 13 At the Restaurant 在餐厅会话A会话B笔记餐厅询问有无座位&#xff1b;餐厅电话订座其他餐厅询问有无座位的问法 吸烟区与非吸烟区&#xff08;smo…

《Python 简易速速上手小册》第3章:Python 的函数和模块(基于最新版 Python3.12 编写)

注意&#xff1a;本《Python 简易速速上手小册》 核心目的在于让零基础新手「快速构建 Python 知识体系」 文章目录 <mark >注意&#xff1a;本《Python 简易速速上手小册》<mark >核心目的在于让零基础新手「快速构建 Python 知识体系」 3.1 函数&#xff1a;编写…

订婚支出及共同生活消费是否属于彩礼?应否返还?

恋爱期间&#xff0c;男女双方为增进情感而互赠财物的现象十分普遍。而当双方关系结束时&#xff0c;赠送财物的一方要求对方返还时&#xff0c;法院能否支持其主张&#xff1f; 一起男方向女方及女方母亲索要彩礼及恋爱期间花销钱款引发的婚约财产纠纷案&#xff0c;法院综合双…

[力扣 Hot100]Day18 矩阵置零

题目描述 给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 出处 思路 在原数组上直接操作势必会出现“冗余”的0&#xff0c;即原本[i,j]处不是0&#xff0c;例如由于i行的其他位置有0导致[i,j]…