网站建设项目中标通知/企业网站建设多少钱

网站建设项目中标通知,企业网站建设多少钱,杭州大江东建设局网站,招商推广十种方法文章目录 1. 为什么选择 PyPDF?2. 安装 PyPDF3. PDF 文件的合并与拆分3.1 合并 PDF 文件3.2 拆分 PDF 文件 4. 提取 PDF 文本5. 修改 PDF 元信息6. PDF 加密与解密6.1 加密 PDF6.2 解密 PDF 7. 页面旋转与裁剪7.1 旋转页面7.2 裁剪页面 8. 实战经验总结 PDF 是一种非…

在这里插入图片描述

文章目录

    • 1. 为什么选择 PyPDF?
    • 2. 安装 PyPDF
    • 3. PDF 文件的合并与拆分
      • 3.1 合并 PDF 文件
      • 3.2 拆分 PDF 文件
    • 4. 提取 PDF 文本
    • 5. 修改 PDF 元信息
    • 6. PDF 加密与解密
      • 6.1 加密 PDF
      • 6.2 解密 PDF
    • 7. 页面旋转与裁剪
      • 7.1 旋转页面
      • 7.2 裁剪页面
    • 8. 实战经验总结

PDF 是一种非常常见的文件格式,用于文档共享、电子书、合同等场景。对于开发者来说,能够高效地操作 PDF 文件是一个重要技能。本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务,并分享实战经验。

1. 为什么选择 PyPDF?

PyPDF 是一个轻量级且功能强大的 PDF 操作库,支持以下功能:

  • 合并和拆分 PDF 文件
  • 提取文本和元信息
  • 添加或修改文档的元数据
  • 加密和解密 PDF
  • 自定义 PDF 页面旋转或裁剪

以下是一些实战场景的详细实现。


2. 安装 PyPDF

首先,需要安装 PyPDF 库。可以使用 pip:

pip install pypdf

确保安装的是最新版,以获得最新功能和性能改进。


3. PDF 文件的合并与拆分

3.1 合并 PDF 文件

合并多个 PDF 文件在生成报告或整理文档时非常有用。

from pypdf import PdfMerger# 初始化合并器
merger = PdfMerger()# 添加需要合并的 PDF 文件
merger.append("file1.pdf")
merger.append("file2.pdf")# 保存合并后的文件
merger.write("merged.pdf")
merger.close()
print("PDF 合并完成!")

3.2 拆分 PDF 文件

将一个 PDF 文件拆分为多个独立的页面文件。

from pypdf import PdfReader, PdfWriter# 读取 PDF 文件
reader = PdfReader("input.pdf")# 拆分每一页
for i, page in enumerate(reader.pages):writer = PdfWriter()writer.add_page(page)with open(f"page_{i+1}.pdf", "wb") as output_file:writer.write(output_file)
print("PDF 拆分完成!")

4. 提取 PDF 文本

提取 PDF 文件中的文本内容,可以用于数据分析或自动化处理。

from pypdf import PdfReader# 读取 PDF 文件
reader = PdfReader("input.pdf")# 提取每页的文本
for page in reader.pages:print(page.extract_text())

注意事项

  • 文本提取的效果取决于 PDF 的结构。如果 PDF 中的文本是以图像形式存储的,则无法直接提取文本。

5. 修改 PDF 元信息

修改 PDF 的元数据,例如标题、作者等。

from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()# 复制所有页面到新 PDF
writer.add_pages(reader.pages)# 修改元信息
writer.metadata = {"/Title": "新的标题","/Author": "作者名","/Subject": "主题描述"
}with open("output.pdf", "wb") as output_file:writer.write(output_file)
print("元信息修改完成!")

6. PDF 加密与解密

6.1 加密 PDF

为 PDF 文件添加密码保护。

from pypdf import PdfWriterwriter = PdfWriter()
writer.append("input.pdf")# 设置密码
writer.encrypt(user_password="user123", owner_password="owner123")with open("encrypted.pdf", "wb") as output_file:writer.write(output_file)
print("PDF 加密完成!")

6.2 解密 PDF

解密受密码保护的 PDF 文件。

from pypdf import PdfReaderreader = PdfReader("encrypted.pdf")# 提供密码解密
reader.decrypt("user123")for page in reader.pages:print(page.extract_text())

7. 页面旋转与裁剪

7.1 旋转页面

旋转 PDF 的页面,例如将横向页面转为纵向。

from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()# 旋转每一页
for page in reader.pages:page.rotate(90)  # 顺时针旋转 90 度writer.add_page(page)with open("rotated.pdf", "wb") as output_file:writer.write(output_file)
print("页面旋转完成!")

7.2 裁剪页面

裁剪页面边框以去掉不必要的内容。

from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()for page in reader.pages:# 设置裁剪框 (左, 下, 右, 上)page.mediabox.lower_left = (50, 50)page.mediabox.upper_right = (500, 700)writer.add_page(page)with open("cropped.pdf", "wb") as output_file:writer.write(output_file)
print("页面裁剪完成!")

8. 实战经验总结

  1. 处理异常:在实际操作中,确保捕获文件读写或解析过程中的异常,例如文件不存在或解密失败。
  2. 测试 PDF 文件:由于 PDF 文件格式的多样性,在批量处理前需要先对样本文件进行测试。
  3. 性能优化:对于大文件,使用分批加载的方式处理。
  4. 安全性:避免在代码中硬编码敏感信息,例如密码。

通过本文,您应该对 PyPDF 的常用功能有了清晰的理解,并能应用到实际项目中。如果有更复杂的场景,可以参考官方文档或社区资源深入探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/67694.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 安装配置(完整教程)

文章目录 一、MySQL 简介二、下载 MySQL三、安装 MySQL四、配置环境变量五、配置 MySQL5.1 初始化 MySQL5.2 启动 MySQL 服务 六、修改 MySQL 密码七、卸载 MySQL八、结语 一、MySQL 简介 MySQL 是一款广泛使用的开源关系型数据库管理系统(RDBMS)&#…

PostgreSQL的学习心得和知识总结(一百六十六)|深入理解PostgreSQL数据库之\watch元命令的实现原理

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…

当当网书籍信息爬虫

1.基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以按照我们设置的规则自动化爬取网络上的信息,这些规则被称为爬虫算法。是一种自动化程序,用于从互联网上抓取数据。爬虫通过模拟浏览器的行为,访问网页…

计算机网络 (50)两类密码体制

前言 计算机网络中的两类密码体制主要包括对称密钥密码体制(也称为私钥密码体制、对称密码体制)和公钥密码体制(也称为非对称密码体制、公开密钥加密技术)。 一、对称密钥密码体制 定义: 对称密钥密码体制是一种传…

【PowerQuery专栏】实现JSON数据的导入

Json 格式数据是在互联网数据格式传输使用的非常频繁的一类数据,图7.44为Json数据格式中比较典型的数据格式。 PowerQuery进行Json数据解析使用的是Json.Document进行数据解析,Json.Document目前有2个参数。 参数1为内容数据,数据类型为二进制类型,值为需要解析的Json数据参…

软件授权管理中的软件激活向导示例

软件激活向导示例 在软件许可中,提供许可应该是简单和安全的。这适用于想要在中央许可证服务器上创建新许可证的软件开发人员,也适用于需要在其设备上获得许可证的最终用户。如果所讨论的系统有互联网连接,或是暂时的连接,就可以…

模型部署工具01:Docker || 用Docker打包模型 Build Once Run Anywhere

Docker 是一个开源的容器化平台,可以让开发者和运维人员轻松构建、发布和运行应用程序。Docker 的核心概念是通过容器技术隔离应用及其依赖项,使得软件在不同的环境中运行时具有一致性。无论是开发环境、测试环境,还是生产环境,Do…

【云岚到家】-day03-门户缓存方案选择

【云岚到家】-day03-门户缓存方案选择 1.门户常用的技术方案 什么是门户 说到门户马上会想到门户网站,中国比较早的门户网站有新浪、网易、搜狐、腾讯等,门户网站为用户提供一个集中的、易于访问的平台,使他们能够方便地获取各种信息和服务…

网络安全VS数据安全

关于网络安全和数据安全,我们常听到如下两种不同声音: 观点一:网络安全是数据安全的基础,把当年做网络安全的那一套用数据安全再做一遍。 观点二:数据安全如今普遍以为是网络安全的延伸,实际情况是忽略数据…

Python----Python高级(文件操作open,os模块对于文件操作,shutil模块 )

一、文件处理 1.1、文件操作的重要性和应用场景 1.1.1、重要性 数据持久化: 文件是存储数据的一种非常基本且重要的方式。通过文件,我们可 以将程序运行时产生的数据永久保存下来,以便将来使用。 跨平台兼容性: 文件是一种通用…

Ubuntu 24.04 LTS 安装 Docker Desktop

Docker 简介 Docker 简介和安装Ubuntu上学习使用Docker的详细入门教程Docker 快速入门Ubuntu版(1h速通) Docker 安装 参考 How to Install Docker on Ubuntu 24.04: Step-by-Step Guide。 更新系统和安装依赖 在终端中运行以下命令以确保系统更新并…

python+pygame+pytmx+map editor开发一个tiled游戏demo 05使用object层初始化player位置

代码 import mathimport pygame# 限制物体在屏幕内 import pytmxdef limit_position_to_screen(x, y, width, height):"""限制物体在屏幕内"""x max(0, min(x, SCREEN_WIDTH - width)) # 限制x坐标y max(0, min(y, SCREEN_HEIGHT - height))…

函数递归的介绍

1.递归的定义 在C语言中,递归就是函数自己调用自己 上面的代码就是 main 函数在函数主体内 自己调用自己 但是,上面的代码存在问题:main 函数反复地 自己调用自己 ,不受限制,停不下来。 最终形成死递归,…

【PCIe 总线及设备入门学习专栏 6.1 -- PCIe MCTP】

文章目录 1 什么是 MCTP?2 MCTP 消息在 PCIe 中的传输特点3 PCIe MCTP 的局限性(1) 出站(Outbound)MCTP 消息分解的限制(2) 入站(Inbound)MCTP 消息组装的限制4 MCTP 消息的实际使用流程发送端处理流程接收端处理流程5 实际使用场景例 1:管理命令传输例 2:监控数据报告例…

Text2Sql:开启自然语言与数据库交互新时代(30/30)

一、Text2Sql 简介 在当今数字化时代,数据处理和分析的需求日益增长。对于众多非技术专业人员而言,数据库操作的复杂性常常成为他们获取所需信息的障碍。而 Text2Sql 技术的出现,为这一问题提供了有效的解决方案。 Text2Sql,即文…

【机器学习实战入门项目】MNIST数字分类机器学习项目

Python 深度学习项目:手写数字识别 为了使机器更加智能,开发者们正在深入研究机器学习和深度学习技术。人类通过不断练习和重复来学习执行某项任务,从而记住如何完成这些任务。然后,大脑中的神经元会自动触发,他们能够…

快速入门:如何注册并使用GPT

文章目录 ProtonMail邮箱步骤 1:访问Proton官网步骤 2:创建ProtonMail账户步骤 3:选择注册免费账户步骤 4:填写邮箱地址和手机号(可选)步骤 5:邮箱验证(必须进行验证)步骤…

C# 给定欧氏平面中的一组线可以形成的三角形的数量

给定欧氏平面中的一组线可以形成的三角形的数量(Number of Triangles that can be formed given a set of lines in Euclidean Plane) 给定欧氏平面上的 n 条不同直线的集合 L {l 1 , l 2 , ………, l n }。第i 条直线由形式为 a i x b i y c i的方程给出。求出可以使用集合…

从CRUD到高级功能:EF Core在.NET Core中全面应用(三)

目录 IQueryable使用 原生SQL使用 实体状态跟踪 全局查询筛选器 并发控制使用 IQueryable使用 在EFCore中IQueryable是一个接口用于表示可查询的集合,它继承自IEnumerable但具有一些关键的区别,使得它在处理数据库查询时非常有用,普通集…

uniapp中h5的微应用解决办法

考虑过用wujie&#xff0c;参考官网Vue组件封装 | 无界的教程&#xff0c;虽然没报错&#xff0c;但是子应用的vue节点根本没挂载上&#xff0c;不知道什么原因&#xff0c;如下图所示 后面采用iframe方式将子应用导入进来&#xff1a; 父应用&#xff1a; <template>&…