c++代码整洁之道pdf_别再问如何用python提取PDF内容了

4fe2f07cf7b2924be057a59cb41d574c.png

作者:陈熹

来源:早起Python

大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并、拆分、水印、加密等操作。

今天我们再次回到PDF,详细讲解如何使用python从PDF提取指定的信息。我们将以一份年度报告PDF为例进行介绍,内含大量文字、表格、图片,具体如下

9d567064854cc01279f0c304d2263da3.png

模块安装

首先需要安装两个模块,第一个是pdfplumber,在命令行使用pip安装即可

pip install pdfplumber

第二个是fitz, 它是pymupdf中的一个模块,同样可以使用pip轻松安装

pip install pymupdf

文字信息提取

使用python提取PDF中文字代码思路如下

  1. 利用pdfplumber打开一个 PDF 文件
  2. 获取指定的页,或者遍历每一页
  3. 利用.extract_text()方法提取当前页的文字
73590d7e746eaa18a6bacb2f9fedb6a4.png

现在让我们用上述代码尝试提取示例数据中第12页的文字

098a7618c6782f6b741ef9cbfd3baa49.png
import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[11]    print(page.extract_text())

结果如下图所示

51c032d7478bd5c6b70bda648ee435da.png

接着可以将内容通过导入python-docx并借助wordfile.add_paragraph()写入Word文件中,而这个模块我们已经讲解很多次,此处就不再赘述。

表格信息提取

使用Python提取单个表格和提取单页文字的代码非常类似,用的是.extract_table()

d118aba8b876b45af67726022e0f735e.png

但需要注意的是.extract_table()默认提取指定页面的第一个表格,如果当前页面有多个表格都需要提取,则要直接使用.extract_tables()

例如示例文件中第 13 页有 2 个表格,我们分别利用.extract_table()和.extract_tables()观察输出结果

529458f3e9804c3103995bbfd66c52d0.png
import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[12]    print(page.extract_table())

结果如下

7d9158f62a688516cad94667df8fb7b4.png

可以看到是一个嵌套列表,熟悉这种格式的人会理解想到可以pandas或者遍历该嵌套列表后借助openpyxl的sheet.append(list)写入Excel文件中,

import pdfplumberfile_path = r'C:xxxxpractice.PDF'with pdfplumber.open(file_path) as pdf:    page = pdf.pages[12]    print(page.extract_tables())
b5125e4ff52907a11fc05922bb21b223.png

而.extract_tables()提取当前页所有表格会产生了一个三级嵌套列表,第一层的列表就代表每一个表格,之后也可以利用其他库写入Excel。

图片提取

对于图片提取,现在没有任何一个模块可以做到百分之百的提取。本文只介绍基于fitz模块的代码,基本思路是通过正则查找图片并将其输出

例如提取示例文件中的图片,代码可以这么写

import fitzimport reimport osfile_path = r'C:xxxpractice.PDF'dir_path = r'C:xxx' # 存放图片的文件夹def pdf2pic(path, pic_path):    checkXO = r"/Type(?= */XObject)"    checkIM = r"/Subtype(?= */Image)"    pdf = fitz.open(path)    lenXREF = pdf._getXrefLength()    imgcount = 0    for i in range(1, lenXREF):        text = pdf._getXrefString(i)        isXObject = re.search(checkXO, text)        isImage = re.search(checkIM, text)        if not isXObject or not isImage:            continue        imgcount += 1        pix = fitz.Pixmap(pdf, i)        new_name = f"img_{imgcount}.png"        if pix.n 

结果如下

34a795bc9d997578578ef85dc3237347.png

可以看到成功提取了图片,但PDF中的图片远不止这些,如果你有其他思路或者方法可以在留言区与我交流。

写在最后

最后要说明的是,在上一篇文章及本文中我们剖析了每一行代码。但针对PDF的模块较多,且有些模块功能并不完善,代码也没有类似OFFICE三件套操作那般简洁,因此更多时候以理解为主,不需要完全掌握写,会用会改即可!

当然还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手,并且能与日常办公结合让复杂的工作自动化!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机操作系统学习

1 概述 操作系统职能完成对硬件的管理和控制 1.1 操作系统需要关注的 计算机硬件有CPU, 内存, 磁盘, 声卡, 网卡等等, 所以操作系统关注CPU进程线程的调度, 内存管理(物理内存, 虚拟内存), 文件系统管理, 中断处理, IO设备驱动等等. 1.2 操作系统特征 1.2.1 并发和并行 并…

查看文章影响因子的插件_Scholarscope--在新版PubMed中实现基于影响因子的文献筛选...

小编之前介绍过如何在Pubmed上直接显示杂志影响因子的方法,这个方法主要是依托Scholarscope插件,其实除了显示影响因子,这个插件还可以帮助大家根据影响因子筛选文献哦,操作也很简单,只要生成自定义过滤器即可&#xf…

leetcode32 --- longestValidParentheses

1 题目 给你一个只包含 ( 和 ) 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 2 解法 2.1 动态规划方法 维护一个字符串长度的数组cur_max_len, 第i个元素代表以当前(或者)结束的最长有效括号的长度. 这样就会利用动态规划递推…

armitage识别不了漏洞_Shiro RememberMe 漏洞检测的探索之路

前言Shiro 是 Apache 旗下的一个用于权限管理的开源框架,提供开箱即用的身份验证、授权、密码套件和会话管理等功能。该框架在 2016 年报出了一个著名的漏洞——Shiro-550,即 RememberMe 反序列化漏洞。4年过去了,该漏洞不但没有沉没在漏洞的…

css响应式布局_用 CSS Grid 布局制作一个响应式柱状图

最新一段时间比较喜欢玩弄图表,出于好奇,我想找出比较好的用 CSS 制作图表的方案。开始学习网上开源图表库,它对我学习新的和不熟悉的前端技术很有帮助,比如这个:CSS Grid。今天和大家分享我学到的新知识:如…

leetcode33 --- search

1 题目 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], ..., nums[n-1], nums[0], num…

leetcode39 --- combinationSum

1 题目 给定一个无重复元素的数组 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。 说明&#xff1a; 所有数字&#xff08;包括 target&#xff09;都是正整数。 解集不能包…

vs code 插件_[VSCode插件开发] 由浅入深,带你了解如何打造百万级产品

去年&#xff0c;笔者有幸在微软技术暨生态大会上做了个演讲&#xff0c;主题是“从零开始开发一款属于你的 Visual Studio Code 插件”。演讲内容主要覆盖了VS Code插件开发的四个方面&#xff1a;设计、实现、推广和维护。作为一个开发者&#xff0c;我们往往会把大多数的时间…

leetcode45 --- jump

1 题目 给定一个非负整数数组&#xff0c;你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。 假设你总是可以到达数组的最后一个位置。 2 解法 2.1 从终点遍历的方法(时间复杂度)…

python怎么查看网页编码格式_怎么用python爬取网页文字?

用Python进行爬取网页文字的代码&#xff1a;#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url htt用python进行爬取网页文字的代码&#xff1a;#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url htt…

leetcode51 --- solveNQueens

1 题目 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上&#xff0c;并且使皇后彼此之间不能相互攻击。 给你一个整数 n &#xff0c;返回所有不同的 n 皇后问题 的解决方案。 每一种解法包含一个不同的 n 皇后问题 的棋子放置方案&#xff0c;该方案中 Q 和 . 分别代…

leetcode41 --- firstMissingPositive

1 题目 给你一个未排序的整数数组 nums &#xff0c;请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 2 解法 最笨的方法是从1开始试, 看1在数组里面是否出现过, 2, 3, ....不过时间复杂度是. 2.1 hash 可以考虑…

python二十四点_Python秒算24点,行还是不行?

周末闲来无事&#xff0c;看到隔壁家的老王在和隔壁家的媳妇玩24点&#xff0c;就进屋看了看。发现老王是真不行啊&#xff0c;那不行&#xff0c;这也不行。 就连个24点都玩不过他媳妇&#xff0c;给他媳妇气的&#xff0c;啥都不能满足&#xff0c;这不能&#xff0c;那也不能…

python设置文件编码_python批量修改文件编码格式的方法

本文实例为大家分享了python批量修改文件编码格式的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下 使用说明&#xff1a; 1、使用工具&#xff1a;Python2.7.6chardet2.3.0&#xff0c;chardet2.3.0下载地址&#xff1a;点击这里 2、环境配置&#xff1a;Python安装…

leetcode42 --- trap

1 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 2 思路 这个题主要是要清楚, 接的最多的雨水总量为一个位置的最高水位减去这个位置的高度(也就是该位置的接水量)的总和, 而每一个位置的最高水…

手机上python编程工具3和3h有区别吗_Python 高级 3

1.编辑器vim 目标 能够说出vim三种工作模式 能够写出vim复制、剪切、粘贴、选中多行命令 yy,dd,p,数字V 能够写出查找、替换命令 :/要查找的内容&#xff0c;n下一个&#xff0c;N上一个 :%s/要替换的内容/新内容/g :10-20s/要替换的内容/新内容 <1>vim简 介 vim是一个类…

计算机网络中的数据链路层

概述 结点: 主机, 路由器 链路: 网络中两个结点之间的物理通道, 链路的传输介质主要有双绞线, 光纤和微波, 分为有线链路和无线链路. 数据链路: 网络中两个结点之间的逻辑通道, 把实现控制数据传输协议的硬件和软件加到链路上就构成数据链路. 帧: 链路层的协议数据单元…

jnativecpp.dll一定要放到系统目录下吗_电脑硬盘有必要分区吗,分几个区最好?...

购买电脑后&#xff0c;必不可少的一个步骤就是对电脑硬盘进行分区了&#xff0c;其实硬盘分区也是有讲究的&#xff0c;并不是随意分的&#xff0c;下面租物租就给大家介绍下电脑分区的知识。硬盘分区可以提高数据的安全&#xff0c;防止数据丢失&#xff0c;但是防止数据丢失…

leetcode37 --- solveSudoku(解数独)

1 题目 编写一个程序&#xff0c;通过填充空格来解决数独问题。 数独的解法需 遵循如下规则&#xff1a; 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08;请参考示例图&#xff09; …

pythonsuper多重继承_Python super()函数使用及多重继承

super()函数可以用于继承父类的方法&#xff0c;语法如下&#xff1a; super(type[, object-or-type]) 虽然super()函数的使用比较简单&#xff0c;但是需要根据单继承和多继承来分析函数的调用关系。 首先&#xff0c;当类之间的继承关系为单继承时&#xff0c;函数调用关系也…