Python玩转PDF:几招搞定的高效操作方法

更多资料获取

📚 个人网站:ipengtao.com


当在Python中操作PDF时,有几种常见的方法,每种方法都有其独特的优点和用例。在本文中,我们将深入探讨这些方法,并提供丰富的示例代码,以帮助大家更好地理解如何使用这些技术。

1. 使用PyPDF2库进行PDF操作

PyPDF2是一个流行的Python库,用于处理PDF文件。它允许你合并、拆分、旋转和提取PDF文档的内容。

以下是一些基本的示例代码:

import PyPDF2# 合并两个PDF文件
def merge_pdfs(file1, file2, output):pdf_writer = PyPDF2.PdfFileWriter()pdf_reader1 = PyPDF2.PdfFileReader(file1)pdf_reader2 = PyPDF2.PdfFileReader(file2)for page_num in range(pdf_reader1.numPages):page = pdf_reader1.getPage(page_num)pdf_writer.addPage(page)for page_num in range(pdf_reader2.numPages):page = pdf_reader2.getPage(page_num)pdf_writer.addPage(page)with open(output, 'wb') as merged_file:pdf_writer.write(merged_file)# 拆分PDF文件
def split_pdf(input_file, output_folder):pdf_reader = PyPDF2.PdfFileReader(input_file)for page_num in range(pdf_reader.numPages):pdf_writer = PyPDF2.PdfFileWriter()page = pdf_reader.getPage(page_num)pdf_writer.addPage(page)output_file = f'{output_folder}/page_{page_num + 1}.pdf'with open(output_file, 'wb') as single_page_file:pdf_writer.write(single_page_file)# 调用示例
merge_pdfs('document1.pdf', 'document2.pdf', 'merged_document.pdf')
split_pdf('large_document.pdf', 'output_folder')

2. 使用reportlab库创建PDF

reportlab是一个强大的PDF生成库,它允许从头开始创建PDF文档,包括文本、图形和表格。

以下是一个简单的例子:

from reportlab.pdfgen import canvasdef create_pdf(output_file):c = canvas.Canvas(output_file)c.drawString(72, 800, "Hello, this is a sample PDF created with reportlab.")c.showPage()c.save()# 调用示例
create_pdf('sample_reportlab.pdf')

3. 使用PyMuPDF库进行PDF渲染

PyMuPDF是一个用于渲染PDF文件的库,可以用于提取文本和图像信息。

以下是一个简单的示例:

import fitz  # PyMuPDF的Python绑定def extract_text_images(pdf_file):doc = fitz.open(pdf_file)for page_num in range(doc.page_count):page = doc[page_num]# 提取文本text = page.get_text("text")print(f"Text on page {page_num + 1}:\n{text}\n")# 提取图像for img_index, img in enumerate(page.get_images(full=True)):img_index += 1base_image = doc.extract_image(img)image_bytes = base_image["image"]image_name = f"page_{page_num + 1}_image_{img_index}.png"with open(image_name, "wb") as image_file:image_file.write(image_bytes)# 调用示例
extract_text_images('document.pdf')

4. 使用PDFMiner库提取文本信息

PDFMiner是一个用于提取PDF文本的强大库,它支持高级的文本提取和布局分析。

以下是一个简单的示例:

from pdfminer.high_level import extract_textdef extract_text_from_pdf(pdf_file):text = extract_text(pdf_file)print(f"Text extracted from the PDF:\n{text}")# 调用示例
extract_text_from_pdf('document.pdf')

5. 使用FPDF库创建PDF文档

FPDF是一个轻量级的Python库,用于在PDF文档中添加文本、图形和页面。

以下是一个简单的创建PDF文档的示例:

from fpdf import FPDFclass PDFGenerator(FPDF):def header(self):self.set_font('Arial', 'B', 12)self.cell(0, 10, 'My PDF Document', 0, 1, 'C')def chapter_title(self, num, label):self.set_font('Arial', 'B', 12)self.cell(0, 10, 'Chapter %d : %s' % (num, label), 0, 1, 'L')def chapter_body(self, body):self.set_font('Arial', '', 12)self.multi_cell(0, 10, body)# 创建PDF文档
pdf = PDFGenerator()
pdf.add_page()
pdf.chapter_title(1, 'Introduction')
pdf.chapter_body('This is the introduction to my PDF document.')
pdf.chapter_title(2, 'Chapter 1')
pdf.chapter_body('This is the content of chapter 1.')# 保存PDF文档
pdf.output('generated_document.pdf')

6. 使用PDFKit库将HTML转换为PDF

PDFKit是一个基于wkhtmltopdf工具的Python库,可以将HTML内容转换为PDF文档。这在需要动态生成报告或将网页内容保存为PDF时非常有用。

以下是一个简单的例子:

import pdfkitdef html_to_pdf(html_content, output_pdf):pdfkit.from_string(html_content, output_pdf)# 调用示例
html_content = "<html><body><h1>Hello, PDFKit!</h1><p>This is a sample HTML content.</p></body></html>"
html_to_pdf(html_content, 'html_to_pdf_output.pdf')

7. 使用PyPDF2旋转PDF页面

PyPDF2不仅可以用于合并和拆分PDF,还可以用于对PDF页面进行旋转。

以下是一个旋转PDF页面的简单示例:

import PyPDF2def rotate_pdf(input_pdf, output_pdf, rotation_angle):pdf_writer = PyPDF2.PdfFileWriter()pdf_reader = PyPDF2.PdfFileReader(input_pdf)for page_num in range(pdf_reader.numPages):page = pdf_reader.getPage(page_num)page.rotateClockwise(rotation_angle)pdf_writer.addPage(page)with open(output_pdf, 'wb') as rotated_file:pdf_writer.write(rotated_file)# 调用示例
rotate_pdf('document.pdf', 'rotated_document.pdf', 90)

8. 使用PDFMerger库进行PDF合并

PDFMerger是一个简单易用的库,专门用于合并PDF文件。

以下是一个示例:

from PyPDF2 import PdfMergerdef merge_pdfs_with_pdfmerger(files, output_file):merger = PdfMerger()for pdf_file in files:merger.append(pdf_file)merger.write(output_file)merger.close()# 调用示例
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merge_pdfs_with_pdfmerger(pdf_files, 'merged_files.pdf')

总结

在本文中,我们分享了Python中操作PDF的多种方法,涵盖了PyPDF2、reportlab、PyMuPDF、PDFMiner、FPDF、PDFKit、PyPDF2、PDFMerger等库的应用。通过丰富的示例代码,学习了合并、拆分、文本提取、HTML转换、页面旋转和PDF合并等常见操作。这些工具和技术为处理PDF文件提供了灵活而强大的手段,能够根据具体需求选择适当的方法。

无论是生成报告、处理文档还是转换HTML内容,Python的生态系统都提供了多样化的解决方案。通过阅读本文,不仅可以了解每种方法的基本原理,还能够通过示例代码深入理解其实际应用。在处理PDF的日常任务中,选择适当的工具和技术将极大地提高工作效率。


Python学习路线

在这里插入图片描述

更多资料获取

📚 个人网站:ipengtao.com

如果还想要领取更多更丰富的资料,可以点击文章下方名片,回复【优质资料】,即可获取 全方位学习资料包。

在这里插入图片描述
点击文章下方链接卡片,回复【优质资料】,可直接领取资料大礼包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/218880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「Verilog学习笔记」可置位计数器

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 timescale 1ns/1nsmodule count_module(input clk,input rst_n,input set,input [3:0] set_num,output reg [3:0]number,output reg zero);reg [3:0] cnt ; always (posed…

3-分布式存储之Ceph

任务背景 虽然使用了分布式的glusterfs存储, 但是对于爆炸式的数据增长仍然感觉力不从心。对于大数据与云计算等技术的成熟, 存储也需要跟上步伐. 所以这次我们选用对象存储. 任务要求 1, 搭建ceph集群 2, 实现对象存储的应用 任务拆解 1, 了解ceph 2, 搭建ceph集群 3, 了…

深度学习 | Pytorch深度学习实践 (Chapter 12 Basic RNN)

十二、Basic RNN —— 实际上就是对线性层的复用 使用RNN最重要的两点&#xff1a; 了解序列数据的维度&#xff1b;循环过程所用的权重共享机制&#xff1b; 一般就是自己写个循环&#xff0c;权重层重复用就行了&#xff1b; 回顾&#xff1a;-----------------------------…

破局创新,天翼云HBlock如何以小见大、以柔克刚?

引言&#xff1a;另辟蹊径开拓创新 不走传统存储厂商的“寻常路” 【全球存储观察 &#xff5c; 科技热点关注】 在分布式块存储领域&#xff0c;大部分厂商的安装软件套件大小都在GB级。然而&#xff0c;天翼云破天荒地将存储资源盘活系统HBlock的软件安装包浓缩到了170MB&a…

linux中proc与sys的区别

在Linux系统中&#xff0c;/sys目录和/proc目录都是特殊的虚拟文件系统&#xff0c;用于提供对系统内核和设备信息的访问。 虽然它们的作用有一些重叠&#xff0c;但它们在功能和用途上有一些区别。 功能&#xff1a; /sys目录主要用于提供对设备和驱动程序的信息和配置的访…

Python-乒乓球小游戏【附完整源码】

乒乓球小游戏 乒乓球小游戏是一个简单而有趣的2D页面交互式游戏&#xff0c;玩家可以通过键盘输入来控制球拍上下移动来接球&#xff0c;从而体验乒乓球的乐趣。该游戏有单人和双人两种模式 运行效果&#xff1a; 一&#xff1a;主程序&#xff1a; import sys import cfg …

Jupyter Notebook: 交互式数据科学和编程工具

Jupyter Notebook: 功能强大的交互式编程和数据科学工具 简介 Jupyter Notebook是一个开源的Web应用程序&#xff0c;广泛用于数据分析、科学计算、可视化以及机器学习等领域。它允许创建和共享包含实时代码、方程式、可视化和解释性文本的文档。总而言之&#xff0c;我认为它…

3D Font

在游戏中使用3D文本 只需添加预制件并立即生成您的文本。 特点: *真实3D字母&#xff0c;可用作游戏对象*移动友好低聚 *VR兼容 *WebGL兼容 *30种以上不同字体 *材料和颜色可定制 WebGL演示 https://indiechest.itch.io/3d-font-engine 下载&#xff1a; ​​Unity资源商店链…

【tips】base64编码怎么反显出图片

格式 <img width"400" height"300" src"data:image/jpeg;base64,这里存放base64的图片内容/>实际的数据展示是这样的 然后把以上的文件内容放置到html文件中 最终展示样例 点击这个 展示出来是这样的

opencv 十五 红外图像中虹膜的提取

一、算法需求 在医疗检测中&#xff0c;需要使用红外相机拍摄眼睛照片&#xff0c;然后提取出虹膜的区域。在拍摄过程瞳孔需要进行运动&#xff0c;其通常不在正前方&#xff0c;无法形成圆形&#xff0c;不能使用常规的霍夫圆检测进行提取定位。且在在红外图像中&#xff0c;…

将输入的字符串反向输出(c语言)

#include<stdio.h> #include<string.h> int main() {int i, j, k;char s[50], temp;gets(s);//输入k strlen(s);//计算字符的长度//反向输出for (i 0, j k - 1;i < k / 2;i, j--){temp s[i];s[i] s[j];s[j] temp;}puts(s);//输出 }

最近面试了一位5年的测试,一问三不知,还反怼我...

最近看了很多简历&#xff0c;很多候选人年限不小&#xff0c;但是做的都是一些非常传统的项目&#xff0c;想着也不能通过简历就直接否定一个人&#xff0c;何况现在大环境越来 越难&#xff0c;大家找工作也不容易&#xff0c;于是就打算见一见。 在沟通中发现&#xff0c;由…

GB28181学习(十八)——图像抓拍

前言 本文主要介绍图像抓拍功能&#xff0c;通过自研的sip库&#xff08;mysipsdk.dll&#xff09;对接真实设备&#xff0c;使用http方式实现图像数据传输&#xff0c;最终达到图像抓拍与保存的目的。 基本要求 图像格式宜使用JPEG&#xff1b;图像分辨率宜采用与主码流相同…

linux ksm实现与代码简述

KSM 全称是 Kernel Samepage Merging&#xff0c;表示相同的物理页只映射一份拷贝。 原理 在ksm初始化时&#xff08;ksm_init&#xff09;&#xff0c;注册了一个ksm_scan_thread线程&#xff0c;这个线程的核心入口是ksm_do_scan。当对一个进程第一次通过madvice(MADV_MERGE…

Linux高级管理-基于域名的虚拟Web主机搭建

客服机限制地址 通过 Require 配置项&#xff0c;可以根据主机的主机名或P地址来决定是否允许客户端访问。在httpd服 务器的主配置文件的<Location>&#xff0c;<Directory>、<Files>、<Limit>配置段中均可以使用Require 配置 项来控制客户端的访问。使…

Java基础:如何创建多层文件夹

一、单层多个 代码实现如下&#xff1a; public class Main {public static void main(String[] args) {//在D盘中创建File file new File("D:"File.separator"docum");file.mkdir();//在D盘中的docum目录中创建file new File("D:\\docum" Fi…

kafka 详细介绍

目录 前言 分布式架构&#xff1a; 消息发布-订阅模型&#xff1a; 持久性存储&#xff1a; 分区和副本&#xff1a; 水平扩展&#xff1a; 高性能&#xff1a; 生态系统&#xff1a; 我的其他博客 前言 Kafka 是由 Apache 软件基金会开发的一种开源流处理平台&#xf…

微信小程序自定义提示框组件并使用插槽 tooltip

创建tooltip组件引用 创建一个自定义组件&#xff0c;例如命名为 tooltip tooltip.wxml&#xff1a;用于定义组件的结构&#xff1b; <!--components/tooltip/tooltip.wxml--> <view class"tooltip-wrapper" hidden"{{hidden}}" style"lef…

纺织辅料小程序商城制作全攻略

随着互联网的普及和移动支付的便捷性&#xff0c;越来越多的消费者喜欢在线购物&#xff0c;尤其是购买纺织辅料这类产品。为了满足消费者的需求&#xff0c;纺织辅料企业或商家需要制作一个专业的小程序商城&#xff0c;以便更好地展示和销售自己的产品。本文将详细介绍如何制…

Fine-Grained Semantically Aligned Vision-Language Pre-Training细粒度语义对齐的视觉语言预训练

abstract 大规模的视觉语言预训练在广泛的下游任务中显示出令人印象深刻的进展。现有方法主要通过图像和文本的全局表示的相似性或对图像和文本特征的高级跨模态关注来模拟跨模态对齐。然而&#xff0c;他们未能明确学习视觉区域和文本短语之间的细粒度语义对齐&#xff0c;因为…