c++代码整洁之道pdf_别再问如何用python提取PDF内容了

4fe2f07cf7b2924be057a59cb41d574c.png

作者:陈熹

来源:早起Python

大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并、拆分、水印、加密等操作。

今天我们再次回到PDF,详细讲解如何使用python从PDF提取指定的信息。我们将以一份年度报告PDF为例进行介绍,内含大量文字、表格、图片,具体如下

9d567064854cc01279f0c304d2263da3.png

模块安装

首先需要安装两个模块,第一个是pdfplumber,在命令行使用pip安装即可

pip install pdfplumber

第二个是fitz, 它是pymupdf中的一个模块,同样可以使用pip轻松安装

pip install pymupdf

文字信息提取

使用python提取PDF中文字代码思路如下

  1. 利用pdfplumber打开一个 PDF 文件
  2. 获取指定的页,或者遍历每一页
  3. 利用.extract_text()方法提取当前页的文字
73590d7e746eaa18a6bacb2f9fedb6a4.png

现在让我们用上述代码尝试提取示例数据中第12页的文字

098a7618c6782f6b741ef9cbfd3baa49.png
import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[11]    print(page.extract_text())

结果如下图所示

51c032d7478bd5c6b70bda648ee435da.png

接着可以将内容通过导入python-docx并借助wordfile.add_paragraph()写入Word文件中,而这个模块我们已经讲解很多次,此处就不再赘述。

表格信息提取

使用Python提取单个表格和提取单页文字的代码非常类似,用的是.extract_table()

d118aba8b876b45af67726022e0f735e.png

但需要注意的是.extract_table()默认提取指定页面的第一个表格,如果当前页面有多个表格都需要提取,则要直接使用.extract_tables()

例如示例文件中第 13 页有 2 个表格,我们分别利用.extract_table()和.extract_tables()观察输出结果

529458f3e9804c3103995bbfd66c52d0.png
import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[12]    print(page.extract_table())

结果如下

7d9158f62a688516cad94667df8fb7b4.png

可以看到是一个嵌套列表,熟悉这种格式的人会理解想到可以pandas或者遍历该嵌套列表后借助openpyxl的sheet.append(list)写入Excel文件中,

import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[12]    print(page.extract_tables())
b5125e4ff52907a11fc05922bb21b223.png

而.extract_tables()提取当前页所有表格会产生了一个三级嵌套列表,第一层的列表就代表每一个表格,之后也可以利用其他库写入Excel。

图片提取

对于图片提取,现在没有任何一个模块可以做到百分之百的提取。本文只介绍基于fitz模块的代码,基本思路是通过正则查找图片并将其输出

例如提取示例文件中的图片,代码可以这么写

import fitzimport reimport osfile_path = r'C:xxxpractice.PDF'dir_path = r'C:xxx' # 存放图片的文件夹def pdf2pic(path, pic_path):    checkXO = r"/Type(?= */XObject)"    checkIM = r"/Subtype(?= */Image)"    pdf = fitz.open(path)    lenXREF = pdf._getXrefLength()    imgcount = 0    for i in range(1, lenXREF):        text = pdf._getXrefString(i)        isXObject = re.search(checkXO, text)        isImage = re.search(checkIM, text)        if not isXObject or not isImage:            continue        imgcount += 1        pix = fitz.Pixmap(pdf, i)        new_name = f"img_{imgcount}.png"        if pix.n 

结果如下

34a795bc9d997578578ef85dc3237347.png

可以看到成功提取了图片,但PDF中的图片远不止这些,如果你有其他思路或者方法可以在留言区与我交流。

写在最后

最后要说明的是,在上一篇文章及本文中我们剖析了每一行代码。但针对PDF的模块较多,且有些模块功能并不完善,代码也没有类似OFFICE三件套操作那般简洁,因此更多时候以理解为主,不需要完全掌握写,会用会改即可!

当然还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手,并且能与日常办公结合让复杂的工作自动化!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查看文章影响因子的插件_Scholarscope--在新版PubMed中实现基于影响因子的文献筛选...

小编之前介绍过如何在Pubmed上直接显示杂志影响因子的方法,这个方法主要是依托Scholarscope插件,其实除了显示影响因子,这个插件还可以帮助大家根据影响因子筛选文献哦,操作也很简单,只要生成自定义过滤器即可&#xf…

leetcode32 --- longestValidParentheses

1 题目 给你一个只包含 ( 和 ) 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 2 解法 2.1 动态规划方法 维护一个字符串长度的数组cur_max_len, 第i个元素代表以当前(或者)结束的最长有效括号的长度. 这样就会利用动态规划递推…

armitage识别不了漏洞_Shiro RememberMe 漏洞检测的探索之路

前言Shiro 是 Apache 旗下的一个用于权限管理的开源框架,提供开箱即用的身份验证、授权、密码套件和会话管理等功能。该框架在 2016 年报出了一个著名的漏洞——Shiro-550,即 RememberMe 反序列化漏洞。4年过去了,该漏洞不但没有沉没在漏洞的…

css响应式布局_用 CSS Grid 布局制作一个响应式柱状图

最新一段时间比较喜欢玩弄图表,出于好奇,我想找出比较好的用 CSS 制作图表的方案。开始学习网上开源图表库,它对我学习新的和不熟悉的前端技术很有帮助,比如这个:CSS Grid。今天和大家分享我学到的新知识:如…

vs code 插件_[VSCode插件开发] 由浅入深,带你了解如何打造百万级产品

去年,笔者有幸在微软技术暨生态大会上做了个演讲,主题是“从零开始开发一款属于你的 Visual Studio Code 插件”。演讲内容主要覆盖了VS Code插件开发的四个方面:设计、实现、推广和维护。作为一个开发者,我们往往会把大多数的时间…

leetcode45 --- jump

1 题目 给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。 假设你总是可以到达数组的最后一个位置。 2 解法 2.1 从终点遍历的方法(时间复杂度)…

python怎么查看网页编码格式_怎么用python爬取网页文字?

用Python进行爬取网页文字的代码:#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url htt用python进行爬取网页文字的代码:#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url htt…

leetcode41 --- firstMissingPositive

1 题目 给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 2 解法 最笨的方法是从1开始试, 看1在数组里面是否出现过, 2, 3, ....不过时间复杂度是. 2.1 hash 可以考虑…

计算机网络中的数据链路层

概述 结点: 主机, 路由器 链路: 网络中两个结点之间的物理通道, 链路的传输介质主要有双绞线, 光纤和微波, 分为有线链路和无线链路. 数据链路: 网络中两个结点之间的逻辑通道, 把实现控制数据传输协议的硬件和软件加到链路上就构成数据链路. 帧: 链路层的协议数据单元…

jnativecpp.dll一定要放到系统目录下吗_电脑硬盘有必要分区吗,分几个区最好?...

购买电脑后,必不可少的一个步骤就是对电脑硬盘进行分区了,其实硬盘分区也是有讲究的,并不是随意分的,下面租物租就给大家介绍下电脑分区的知识。硬盘分区可以提高数据的安全,防止数据丢失,但是防止数据丢失…

数据结构中的树

1. 树 即是以层次化方式组织和存放数据的特定数据结构 边: 节点与节点之间的连线 根节点: 叶子节点: 度: 节点的度数即为其分叉数, 即其子节点个数. 整棵树的度数是所有节点中度数的最大值 节点深度: 根节点到该节点的唯一路径长(即边的数量) 树高: 所有节点中深度的最大…

排序算法 --- 堆排序

根据大顶堆的描述, 父节点的值始终大于子节点(如果有的话)的值, 再加上堆是完全二叉树, 可以用数组表示, 那么就可以用来进行排序. 具体做法就是, 对于随机排列的数组: 1. 首先将其构建成一个大顶堆, 根据堆的性质, 此时堆顶就是最大值. 2. 把堆顶元素与数组最后一个元素进行…

数据结构中的树 --- 红黑树

红黑树是一种几近平衡的二叉搜索树, 但不是AVL树. 1 红黑树的一些特殊性质 1. 每个节点皆为红色或者黑色。 2. 根节点是黑色。 3. 每个叶子节点(NIL)是黑色(注意, 每个叶子节点必须都为空节点, 也就是指针为nullptr, 无key值)。 4. 每个红色结点的两…

c++数据结构中 顺序队列的队首队尾_数据结构与算法—队列详解

前言栈和队列是一对好兄弟,前面我们介绍过数据结构与算法—栈详解,那么栈的机制相对简单,后入先出,就像进入一个狭小的山洞,山洞只有一个出口,只能后进先出(在外面的先出去)。而队列就好比是一个隧道&#…

phpstudy apache无法启动_phpstudy和wamp哪个好

刚刚接触php的同学会想知道phpstudy和wamp的区别有哪些?phpstudy和wamp哪个好?下面我们来总结一下。一:phpstudy好还是wamp好php的运行环境配置对于新手都是一件比较困难的事情,但是对于高手配置是一件繁琐的事情,个人…

哈夫曼树(最优二叉树)

1 用途 现在假如有一个需求, 把一个很长的字符串用二进制编码的形式存储, 要尽可能的占用较小空间, 那么应该怎么存储呢. 肯定是要确定每个字母的编码方法, 比如 001是A, 010是B等. 那么要怎么确定每个字符编成什么二进制码从而使得总长度最短? 一个根本思想是, 出现频率高的…

visual studio无法更新_VS Code Python 扩展 5 月更新

(给Python编程开发加星标,提升编程技能.)12 号,微软在官方博客发布了 VS Code 编辑器中 Python 扩展的 5 月更新,其中只有一个较为重要的特性:新增了浏览选择 Python 解释器的能力。增加这个功能,主要是为了让选择或变…

至强cpu型号列表_装机必看——CPU型号参数详解

装机必看——CPU型号参数详解——装机个人练习生-海在初步解了电脑构成后,我们DIY装机首先要看的就是如何选CPU,今天就带大家详细学习CPU的各类数据。说到CPU,我们先来介绍下生产CPU的两大公司——Intel和AMD。这两家公司相爱相杀接近50年了&…

多路平衡查找树 --- B(B-)树

1 简介 可以用阶数来描述B树, 一棵M阶B树代表着该B树最多有M个孩子节点. 如果M为2, 那么该B树就是一棵二叉搜索树. 一棵M阶B树具有以下性质: 1. 每个节点最多有M - 1个关键字. 跟普通的树不同, B树的关键字有多个. 2. 根节点最少可以只有一个关键字. 3. 非根节点至少有k个关…

B+树操作方式

1 简介 B树与B树相似, 也存在不同. 可以理解为把所有元素都放在叶子节点, 索引B树化的树. B树的一些性质: 1. B树的节点分类: 内部节点(索引节点), 叶子节点. 如果只有根节点有元素, 那么其可以是内部节点也可以是叶子节点. 2. B树与B树最大的不同是内部节点不保存数据, 只…