PyPDF2:Python里的PDF忍者

在这里插入图片描述

目录📑

    • 1. 背景📑
    • 2. PyPDF2简介:你的PDF小帮手📑
    • 3. PyPDF2全能手册📑
      • 3.1 读取PDF文件内容
      • 3.2 合并PDF文件
      • 3.3 分割PDF文件
      • 3.4 加密PDF文件
    • 4. 总结📑

1. 背景📑

又是一个实际需求,将银行网站下载来的多页且单页多张回单的PDF裁剪成每张单据独立一个PDF文件,调研多个操作PDF的模块后,最终选择了PyPDF2,本文将为大家介绍PyPDF2的常用的功能。

2. PyPDF2简介:你的PDF小帮手📑

PyPDF2是一个无需外部依赖的纯Python库,可以让我们在不安装任何额外软件的情况下,进行PDF的读取、分割、合并以及转换等操作:
优点:

  • 轻量:没有庞大的依赖,纯Python编写。
  • 功能全面:从读取到写入,从合并到拆分,功能丰富。
  • 跨平台:无论是Windows、macOS还是Linux,它都能良好运行。

缺点:

  • 不支持PDF 1.7及以上版本的某些特性:如果你想处理带有复杂特性的最新PDF文件,可能会遇到一些问题。
  • 文档较少:虽然用起来简单,但如果你想成为高级用户,可能需要一点探索精神。

3. PyPDF2全能手册📑

开始之前,我们需要确保PyPDF2已经安装在你的Python环境中。打开你的终端,输入以下命令:

pip install PyPDF2

3.1 读取PDF文件内容

import PyPDF2# 以二进制读取模式打开PDF文件
with open('example.pdf', 'rb') as file:reader = PyPDF2.PdfFileReader(file)# 获取PDF的页数num_pages = reader.numPagesprint(f"该PDF文件总共有 {num_pages} 页。")# 读取第一页的内容page = reader.getPage(0)page_content = page.extractText()print(page_content)

3.2 合并PDF文件

import PyPDF2# 创建PDF合并对象
merger = PyPDF2.PdfFileMerger()# 打开每个PDF文件并添加到合并器
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
for pdf_file in pdf_files:with open(pdf_file, 'rb') as file:merger.append(file)# 输出合并后的PDF到文件
with open('combined.pdf', 'wb') as out_file:merger.write(out_file)print("PDF文件合并完成!")

3.3 分割PDF文件

import PyPDF2# 打开原始PDF文件
with open('big_file.pdf', 'rb') as file:reader = PyPDF2.PdfFileReader(file)# 创建一个写入器,保存我们需要的页面writer = PyPDF2.PdfFileWriter()# 假设我们只需要从第五页到第十页for page_num in range(4, 10):page = reader.getPage(page_num)writer.addPage(page)# 写入到新的PDF文件with open('extracted_pages.pdf', 'wb') as new_file:writer.write(new_file)print("指定页面已经成功保存到新的PDF文件中!")

3.4 加密PDF文件

from PyPDF2 import PdfFileReader, PdfFileWriter# 读取PDF文件
reader = PdfFileReader('document.pdf')# 创建PDF写入器,把读取的内容写入
writer = PdfFileWriter()
for page_num in range(reader.numPages):writer.addPage(reader.getPage(page_num))# 添加密码保护
writer.encrypt('super_secret_password')# 输出加密后的PDF
with open('encrypted_document.pdf', 'wb') as output:writer.write(output)

4. 总结📑

祝贺你!跟着本文的步伐,你刚刚解锁了使用PyPDF2进行PDF文件处理的基础技能。我们一起学习了如何读取PDF文件、合并多个PDF文件等操作。PyPDF2是一个功能强大且灵活的库,适用于各类PDF文档操作的场景,而我们今天探索的仅仅是它能力的冰山一角。

如果你对PDF文档的处理有更深入的需求,比如加密、解密、旋转页面或者添加水印等,PyPDF2都能胜任。所以,不要停滞不前,拿起你的键盘,继续你的探索之旅吧!

参考文档:

  • PyPDF2官方文档:https://pypdf2.readthedocs.io/en/3.0.0/
  • PyPDF2库源代码:https://github.com/py-pdf/pypdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java spring 01 IOC源码

01.spring 中的基础是IOC

6-pytorch-神经网络搭建

b站小土堆pytorch教程学习笔记 1.神经网络骨架搭建:Containers 官方文档代码: import torch.nn as nn import torch.nn.functional as Fclass Model(nn.Module):def __init__(self):super().__init__()self.conv1 nn.Conv2d(1, 20, 5)self.conv2 nn.…

“TypeError: utils request jS WEBPACK IMPORTED MODULE O .default is undefined‘报错

写项目时报下列错误,找了半天,结果才发现自己在request.js中少写了一行代码 一定不要少些代码 export default requestrequest.js完整代码 import axios from axios;//创建一个新的axios对象 const request axios.create({baseURL:http://localhost:…

C++ 二分法

目录 1、704. 二分查找 2、34. 在排序数组中查找元素的第一个和最后一个位置 3、69. x的平方根 4、35. 搜索插入位置 5、852. 山脉数组的峰顶索引 6、162. 寻找峰值 7、153. 寻找旋转排序数组中的最小值 8、LCR 173. 点名 1、704. 二分查找 ​ class Solution {…

C++入门2

目录 前言: 引用 引用特性: 常引用: 使用场景: 1. 做参数 2. 做返回值 3.引用做返回值(方便读写返回变量) 传值、传引用效率比较: 引用和指针的区别: 内联函数 auto关键字(C11) auto的使用细则&#xff1a…

访问raw.githubusercontent.com失败问题的处理

1 问题 GitHub上的项目的有些资源是放在raw.githubusercontent.com上的,通常我们在安装某些软件的时候会从该地址下载资源,直接访问的话经常容易失败。 # 安装operator kubectl apply -f https://raw.githubusercontent.com/oceanbase/ob-operator/2.1…

R3F(React Three Fiber)经验篇

之前一直在做ThreeJS方向,整理了两篇R3F(React Three Fiber)的文档,这是经验篇,如果您的业务场景需要使用R3F,可以参考一下这个文档。下面是目录,按照需求自取。 基础篇 ⬇️ R3F(…

Android 内存优化内存泄漏处理

一:匿名内部类/非静态内部类 匿名内部类的泄漏原因:匿名内部类会隐式地持有外部类的引用.当外部类被销毁时,内部类并不会自动销毁,因为内部类并不是外部类的成员变量, 它们只是在外部类的作用域内创建的对象,所以内部…

力扣细节题:翻转二叉树

细节一:递归采用前序递归 细节二:采用交换节点而不是交换数据因为左右树交换的同时左右树的所有子节点都要交换 细节三:采用外置函数因为return如果在本函数内操作会存在必须返回空指针的问题 /*** Definition for a binary tree node.* s…

01_02_mysql09_MySQL的数据目录

MySQL的数据目录 学习再总结宋红康老师课程内容1.MySQL8的主要目录结构 安装好MySQL8之后,查看如下的目录结构 find / -name mysql1.1数据库文件的存放路径 MySQL数据库文件的存放路径:/var/lib/mysql/ 1.2相关命令目录 相关命令目录:/u…

番外篇 | YOLOv5+DeepSort实现行人目标跟踪检测

前言:Hello大家好,我是小哥谈。DeepSort是一种用于目标跟踪的深度学习算法。它结合了目标检测和目标跟踪的技术,能够在视频中准确地跟踪多个目标,并为每个目标分配一个唯一的ID。DeepSort的核心思想是将目标检测和目标跟踪两个任务进行联合训练,以提高跟踪的准确性和稳定性…

创建vue3项目(基础)

首先打开自己的目录文件输入指令cmd 出现命令行工具 输入指令vue create 项目名称 按回车 选择第三个自己配置 根据需求选择 回车 选择自己需要的版本 出现这个 一直按回车大约5下或者6下 创建完毕 结束 感谢观看

Spring 中的AOP 以及与 AspectJ AOP 的区别

AOP到底是什么,有什么作用: AOP(Aspect-Oriented Programming,面向切面编程): 能够将那些与业务无关,却为业务模块所共同调用的逻辑或责任(例如事务处理、日志管理、权限控制等&…

【EAI 024】RoboVQA: Multimodal Long-Horizon Reasoning for Robotics

Paper Card 论文标题:RoboVQA: Multimodal Long-Horizon Reasoning for Robotics 论文作者:Pierre Sermanet, Tianli Ding, Jeffrey Zhao, et.al. 作者单位:Stanford University, UC Berkeley, Meta 论文原文:https://arxiv.org/a…

【Linux】部署单机项目(自动化启动)---(图文并茂详细讲解)

目录 一 准备工作 1.1 连接服务器拷贝文件 1.2 解压 二 JDK安装 2.1 配置坏境变量 2.2 查看版本 三 Tomcat(自启动) 3.1 复制启动命令的位置 3.2 添加命令相关配置文件 3.2.1 配置jdk及tomcat目录 3.2.2 添加优先级 3.3 设置自启动命令 3.4 开放端口 四 My…

3_怎么看原理图之协议类接口之I2C笔记

I2C只连接I2CSCL与I2CSDA两根线,即2线制异步串行总线。 I2CSCL与I2CSDA两根线需要上拉电阻,目的是让电平有确定的状态。 发完8bit数据后,第9个电平拉低SDA为低电平。 比如传一个数据A0x410100 0001 IIC总线有多个从机设备的通信&#xff0c…

Spring Boot 笔记 025 主界面

1.1 路由搭建 1.1.1 安装vue router npm install vue-router4 1.1.2 在src/router/index.js中创建路由器,并导出 import { createRouter, createWebHistory } from vue-router//导入组件 import LoginVue from /views/Login.vue import LayoutVue from /views/La…

Aidex移动端项目入门

运行效果 项目源码下载 若依-ruoyi-AiDex-Uniapp: 若依-Ruoyi APP 移动解决方案,基于uniappuView封装的一套基础模版,开箱即用,免费开源,一份代码多终端适配,支持H5、支付宝小程序、微信小程序、APP,实现了…

改进Yolov5目标检测与单目测距 yolo速度测量-pyqt界面-yolo添加注意力机制

当设计一个结合了 YOLOv5 目标检测、单目测距与速度测量以及 PyQt 界面的毕业设计时,需要考虑以下几个方面的具体细节: 计算机视觉、图像处理、毕业辅导、作业帮助、代码获取,私聊会回复! YOLOv5 目标检测: 首先,选择…

B树的介绍

R-B Tree 简介特性B树特性m阶B树的性质(这些性质是B树规定的) B树的搜索B树的添加B树的删除——非叶子结点 简介 R-B Tree又称为Red-Black Tree,红黑树。是一种特殊的二叉查找树,红黑树的每个节点上都有存储为表示结点的颜色&…