【python012】Python根据页码处理PDF文件的内容

在日常工作和学习中,需要从PDF文件中提取特定页面的内容,以便进行知识、材料压缩等。
2.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!
3.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!

文章目录

    • 1.环境准备
    • 2.`Python`参考代码
    • 3.其他参考

1.环境准备

  • pymupdf: 是wxWidgetsPython语言下的封装,处理PDF文件的库,提供了读取、提取和创建PDF文件的功能;wxWidgets是一个跨平台的GUI应用编程接口,使用C++编写。
  • wxPython: 基于wxWidgetsPython包,用于创建跨平台的图形用户界面(GUI)应用程序。
  • fitz: fitz库是一个基于Python开发的PDF处理库,它是PyMuPDF的前身。fitz提供了一系列的API和功能,可以用于读取、编辑和生成PDF文件。此外,它还可以处理其他类型的图像,如TIFF和JPEG,提供图像处理功能,如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。
    • 在Python中,fitz库可以用于多种任务,如打开PDF文件、遍历页面、添加注释、提取文本、旋转页面等。此外,它还可以用于在PDF页面上添加高亮注释、提取图像等操作。
    pip install PIL
    pip install fitz
    pip install pymupdf
    pip install wxpython# pip install 库包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
    # pip install wxpython -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com       
    

2.Python参考代码

  • 创建1个简单的GUI应用程序,它将允许用户选择要打开的PDF文件,并输入开始页码和结束页码。然后,点击"Extract"按钮将提取指定范围内的页面并将其保存为新的PDF文件
    import fitz
    import wxclass PDFExtractor(wx.Frame):def __init__(self, parent):wx.Frame.__init__(self, parent, id=wx.ID_ANY, title=u"PDF Extractor", pos=wx.DefaultPosition,size=wx.Size(500, 254), style=wx.DEFAULT_FRAME_STYLE | wx.TAB_TRAVERSAL,name=u"PDF Extractor")self.SetSizeHintsSz(wx.DefaultSize, wx.DefaultSize)self.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_WINDOW))self.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_ACTIVECAPTION))bSizer2 = wx.BoxSizer(wx.VERTICAL)self.m_filePicker2 = wx.FilePickerCtrl(self, wx.ID_ANY, wx.EmptyString, u"Select a file", u"*.*",wx.DefaultPosition, wx.DefaultSize, wx.FLP_DEFAULT_STYLE)self.m_filePicker2.SetFont(wx.Font(9, 74, 90, 92, False, "微软雅黑"))self.m_filePicker2.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_HIGHLIGHT))self.m_filePicker2.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_HIGHLIGHT))bSizer2.Add(self.m_filePicker2, 0, wx.ALL | wx.EXPAND, 5)self.m_staticText5 = wx.StaticText(self, wx.ID_ANY, u"Start Page:", wx.DefaultPosition, wx.DefaultSize, 0)self.m_staticText5.Wrap(-1)self.m_staticText5.SetFont(wx.Font(9, 74, 90, 92, True, "微软雅黑"))self.m_staticText5.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT))bSizer2.Add(self.m_staticText5, 0, wx.ALL, 5)self.m_textCtrl1 = wx.TextCtrl(self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0)bSizer2.Add(self.m_textCtrl1, 0, wx.EXPAND, 5)self.m_staticText6 = wx.StaticText(self, wx.ID_ANY, u"End Page:", wx.DefaultPosition, wx.DefaultSize, 0)self.m_staticText6.Wrap(-1)self.m_staticText6.SetFont(wx.Font(9, 74, 90, 92, True, "微软雅黑"))self.m_staticText6.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT))bSizer2.Add(self.m_staticText6, 0, wx.ALL, 5)self.m_textCtrl2 = wx.TextCtrl(self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0)bSizer2.Add(self.m_textCtrl2, 0, wx.EXPAND, 5)self.m_button18 = wx.Button(self, wx.ID_ANY, u"Extract", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER)self.m_button18.SetFont(wx.Font(12, 74, 90, 92, False, "微软雅黑"))self.m_button18.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT))self.m_button18.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNHIGHLIGHT))self.m_button18.Bind(wx.EVT_BUTTON, self.extract_pages)bSizer2.Add(self.m_button18, 0, wx.ALIGN_CENTER_HORIZONTAL | wx.SHAPED, 5)self.SetSizer(bSizer2)self.Layout()self.Centre(wx.BOTH)def __del__(self):passdef extract_pages(self, event):file_path = self.m_filePicker2.GetPath()start_page = int(self.m_textCtrl1.GetValue())end_page = int(self.m_textCtrl2.GetValue())doc = fitz.open(file_path)output_doc = fitz.open()for page_num in range(start_page - 1, end_page):output_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)output_path = file_path.replace(".pdf", "_extracted.pdf")output_doc.save(output_path)output_doc.close()doc.close()wx.MessageBox("Extraction complete!", "Success", wx.OK | wx.ICON_INFORMATION)# app = wx.App()
    # PDFExtractor(None, title="PDF Extractor")
    # app.MainLoop()if __name__ == '__main__':app = wx.App()  # 运行wx.App()方法。认为窗体是一个独立运行的app,所以要定义一个app的程序类来让窗体执行,调用wx类库对应的App方法来生成应用程序的类对象:wx.App()frame = PDFExtractor(None)  # 调用Frame类,并且不指定父类,当前就成为父类frame.Show()  # 运行展示界面的方法Show()app.MainLoop()  # 进入程序wx.App()循环
    
  • wxFormBuilder配置效果
    在这里插入图片描述
  • 运行效果
    在这里插入图片描述

3.其他参考

  • https://blog.csdn.net/winniezhang/article/details/134924216
  • wxFormBuilder 工具下载地址
  • 【python012】Python根据页码处理PDF文件的内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CF814 D. An overnight dance in discotheque [树形dp+提前处理祖先需要的状态]

传送门 [前题提要]:本题的树形dp的思考方式既考虑子孙需要的贡献以及提前预处理出祖先节点所需要的状态,感觉是我几乎没有碰到过的姿势,平时遇到的大部分的树形dp大都是单单考虑子树的贡献以及限制,感觉很新,故写篇博客记录一下 当然本题具有一个更为"简单"的贪心解…

MyBatis Plus条件构造器使用

1Wrapper: 条件构造抽象类,最顶端父类 1.1 AbstractWrapper: 用于查询条件封装,生成 sql 的 where 条件 1.2 QueryWrapper: Entity 对象封装操作类,不是用lambda语法 1.3 UpdateWrapper: Update…

【工具分享】Nuclei

文章目录 NucleiLinux安装方式Kali安装Windows安装 Nuclei Nuclei 是一款注重于可配置性、可扩展性和易用性的基于模板的快速漏洞验证工具。它使用 Go 语言开发,具有强大的可配置性、可扩展性,并且易于使用。Nuclei 的核心是利用模板(表示为简…

前端学习笔记(2406261):jquery使用checkbox控制页面自动刷新

文章目录 需求登录页面主页面 API用户登录login获取数据getdata 代码登录页面主页面 关于后端 需求 这是一个物联网的演示项目,web端能够实时显示后台数据的变化,其流程非常简单: 用户登录登录成功后显示主界面面主界面进入后自动显示数据数…

仓库管理系统19--盘存管理

原创不易,打字不易,截图不易,多多点赞,送人玫瑰,留有余香,财务自由明日实现 1、什么是盘存 盘存也叫盘库,盘库是指对一个仓库、库房或者商店的库存进行全面清点和核对的过程。在盘库过程中&am…

L03_Redis知识图谱

这些知识点你都掌握了吗?大家可以对着问题看下自己掌握程度如何?对于没掌握的知识点,大家自行网上搜索,都会有对应答案,本文不做知识点详细说明,只做简要文字或图示引导。 Redis 全景图 Redis 知识全景图都包括什么呢?简单来说,就是“两大维度,三大主线”。 Redis …

IDEA中导入Maven项目

IDEA中导入Maven项目 方式1:使用Maven面板,快速导入项目 打开IDEA,选择右侧Maven面板,点击 号,选中对应项目的pom.xml文件,双击即可 说明:如果没有Maven面板,选择 View > Appe…

qt 开发笔记 动态链接库应用

1.概要 1.1 需求 库有两种,动态库和静态库,这里说的是动态库;动态库的加载方式有两种,一直是静态的一种是动态的,这里的静态加载是指静态加载动态,是一种加载动态库的方式。也有一种动态加载的方式&#…

打造你的第一个STM32步进电机控制器:详细教程与实战技巧

1. 引言 步进电机因其精确的位置控制和较高的响应速度,在自动化设备、3D打印机、CNC机床等领域广泛应用。本文将详细介绍如何使用STM32微控制器来控制步进电机,从理论到实践,帮助读者全面掌握这一重要技术。 STM32系列微控制器以其强大的性…

51单片机第7步_ctype.h库函数

本章重点学习ctype.h库函数。 //介绍C51库函数ctype.h的使用; #include <REG51.h> //包含头文件REG51.h,使能51内部寄存器; #include <ctype.h> //bit isalpha( unsigned char value ); //检查输入参数value是否为英文字母,若是英文字母,则返回1,若不是英文字…

Font Awesome 文件类型图标

Font Awesome 文件类型图标 Font Awesome 是一个广泛使用的图标库,它提供了大量的矢量图标,可以轻松地与各种网页和应用程序集成。这些图标涵盖了多种类别,包括文件类型图标。在本文中,我们将探讨 Font Awesome 提供的一些常见的文件类型图标,以及如何在项目中使用它们。…

探索LangChain-Chatchat 0.3:一体化Agent与强大RAG模型的全面入门指南

介绍 LangChain-Chatchat 支持RAG和Agent0.3版本跟大模型解耦,支持Xinference、Ollama、LocalAI、FastChat、One API,可以非常方便的切换各个模型,本文只是介绍XinferenceXorbits Inference (Xinference) 是一个开源平台&#xff0c;用于简化各种 AI 模型的运行和集成。借助 X…

数据结构速成--查找

由于是速成专题&#xff0c;因此内容不会十分全面&#xff0c;只会涵盖考试重点&#xff0c;各学校课程要求不同 &#xff0c;大家可以按照考纲复习&#xff0c;不全面的内容&#xff0c;可以看一下小编主页数据结构初阶的内容&#xff0c;找到对应专题详细学习一下。 目录 …

STM32CubeMx的学习记录系列(1) - 软件的下载与点灯

目录 因为最近要学STM32的嵌入式AI开发&#xff0c;但它于是基于STM32CubeMX开发的&#xff0c;就顺便把这个学了。 直接百度STM32CubeMX&#xff0c;到意法的官网去下载。下载过程就看这篇博客 https://blog.csdn.net/as480133937/article/details/98885316 点灯 选择芯片&…

内网渗透:内网基础信息收集

Windows&#xff1a; whoami:查看当前当前主机名和登录用户名 whoami /user : 打印当前主机名和输出SID ​ SID的最后一个数字&#xff1a; 1000&#xff1a;普通管理员 500&#xff1a;administrator 501&#xff1a;Guest 516&#xff1a;域控 544&#xff1a;域管理员 net…

002 SpringMVC入门项目搭建

文章目录 HelloController.javaspringmvc.xmlweb.xmlpom.xmlhello.jsp http://localhost:8080/showView http://localhost:8080/showData HelloController.java package com.springmvc.controller;import org.springframework.stereotype.Controller; import org.springframewo…

ArtTS语言基础类库内容的学习(2.10.1)

上篇回顾&#xff1a; ArkTS开发系列之Web组件的学习&#xff08;2.9&#xff09; 本篇内容&#xff1a;ArtTS语言基础类库-异步同步并发内容的学习(2.10.1&#xff09; 一、知识储备 1. 异常并发 Promise和Async/await提供异步并发能力&#xff0c;是标准的JS异步语法 Pr…

Scala的Actor模型:并发编程的革命性抽象 摘要

标题&#xff1a;Scala的Actor模型&#xff1a;并发编程的革命性抽象 摘要 Scala语言以其强大的函数式编程特性和并发模型而闻名。Actor模型作为Scala并发编程的核心&#xff0c;提供了一种高效、可靠的并行处理方式。本文将深入探讨Scala的Actor模型&#xff0c;包括其设计理…

亿发微商城:从社交流量到生意增量,拓客+变现双收益

亿发微商城提供私域经营必备的系统 、服务和技术支持等全套解决方案。省去开发成本&#xff0c;还原品牌调性&#xff0c;打通社交渠道&#xff0c;经营私域会员&#xff0c;带来传统电商和线下门店之外的生意增量。

揭秘Etched AI:三个哈佛辍学00后挑战英伟达,推出Transformer专用ASIC芯片sohu

人工智能领域最近掀起了一股新的热潮&#xff0c;三位哈佛辍学的00后本科生创建了Etched AI&#xff0c;并成功推出了一款超强AI芯片sohu&#xff0c;直指英伟达的AI芯片帝国。这款芯片被誉为比英伟达H100快20倍&#xff0c;吸引了众多科技界的关注。本文将深入探讨Etched AI及…