python知识:从PDF 提取文本

一、说明

        PDF 到文本提取是自然语言处理和数据分析中的一项基本任务,它允许研究人员和数据分析师从 PDF 文件中包含的非结构化文本数据中获得见解。Python 是一种通用且广泛使用的编程语言,它提供了多个库和工具来促进提取过程。

二、各种PDF操作库

        让我们深入研究一下著名的库和需要考虑的其他要点:

2.1 PyPDF2库 

        PyPDF2是一个简单有效的库,用于从PDF文件中提取文本。但是,它在处理复杂的 PDF 结构方面存在局限性,可能无法以最佳方式处理所有类型的 PDF。虽然这是一个很好的起点,但它可能不是更复杂的提取任务的最佳选择。

import PyPDF2pdfFileObj = open('example.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(pdfFileObj)num_pages = pdfReader.numPages
text = ""for i in range(num_pages):pageObj = pdfReader.getPage(i)text += pageObj.extractText()print(text)

2.2. PDFminer库

        PDFminer是一个强大的库,它提供了更高级的功能来从PDF中提取文本。它提供精确的文本提取,包括从嵌入的图像和其他非文本元素中提取。但是,它的复杂性可能会使初学者不太容易理解。

from pdfminer.high_level import extract_textwith open('sample.pdf', 'rb') as pdf_file:page_content = extract_text(pdf_file)print(page_content)

3.3 PyMuPDF库

        PyMuPDF是一个轻量级和快速的库,支持各种PDF操作,包括文本提取。它提供了易于使用的界面,使其适用于简单和更复杂的任务。

import fitzpdf_file = "sample.pdf"
doc = fitz.open(pdf_file)# Iterate over all the pages
for page in doc:page_content = page.getText()print(page_content)doc.close()

3.4 pdfPlumber库

        pdfPlumber是一个建立在pdfminer之上的高级库,为从PDF文件中提取文本提供了一个直观的API。它简化了流程,并抽象化了pdfminer中存在的一些复杂性。

import pdfplumberwith pdfplumber.open('example.pdf') as pdf:pages = pdf.pagestext = ""for page in pages:text += page.extract_text()print(text)

3.5. 提取 

         提取是一个多功能库,能够从各种文件格式(包括 PDF)中提取文本。它依赖于外部工具,如pdfminer和pdftotext,提供更广泛的文件格式支持。

import textracttext = textract.process('example.pdf')print(text)

三、附加点 

        a. 处理加密的 PDF:某些 PDF 文件可能已加密,需要密码才能访问。从加密的 PDF 中提取文本时,您需要在提取过程中提供密码。

        b. 处理 OCR 文本:PDF 文件可能包含文本的扫描图像,无法使用标准方法提取。为了处理OCR(光学字符识别)文本,可以使用像pytesseract(Google的Tesseract OCR引擎的包装器)这样的专用库从图像中提取文本。

        c. 页面范围和特定区域提取:上述所有库都允许您从特定页面甚至页面中的特定区域提取文本。在处理大型文档或 PDF 中的特定感兴趣区域时,此功能至关重要。

        d. 处理 Unicode 和编码:PDF 文件可以包含以各种字符编码编码的文本,并且某些字符可能无法正确识别。在提取文本时处理 Unicode 字符并指定适当的编码以避免潜在的数据损坏至关重要。

        e. 错误处理:PDF 文件可能存在不一致或结构问题,从而导致提取过程中出错。应实现正确的错误处理,以防止提取过程意外停止。

        Python 提供了多种库和工具来从 PDF 文件中提取文本,以满足各种复杂性和要求。库的选择取决于特定的用例、PDF 的复杂性和所需的精度级别。研究人员和数据分析师可以利用这些库的强大功能,从存储在PDF文件中的大量文本数据中解锁有价值的见解,从而丰富他们的自然语言处理和数据分析工作流程。塔曼纳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/111832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue+openlayers+projs4实现坐标转换

一、背景 有一堆点数据,需要在地图上标记,只知参考北京54坐标系或西安80坐标系,但具体是哪种不清楚,这时候就需要坐标转换。ps:EPSG:3857(openlayers参照的坐标系) 二、思路 1、研…

Jmeter接口测试:jmeter导入和导出接口的处理

JMeter测试导入接口 利用Jmeter测试上传文件,首先可根据接口文档或者fiddler抓包分析文件上传的接口;如下图: 以下是我通过fiddler所截取的文件上传的接口 1、填写导入接口的信息 查看文件上传栏下的填写信息: 文件名称&#x…

大数据Flink(九十九):SQL 函数的解析顺序和系统内置函数

文章目录 SQL 函数的解析顺序和系统内置函数 一、​​​​​​​SQL 函数

Nginx集群负载均衡配置完整流程

今天,良哥带你来做一个nginx集群的负载均衡配置的完整流程。 一、准备工作 本次搭建的操作系统环境是win11,linux可配置类同。 1)首先,下载nginx。 下载地址为:http://nginx.org/en/download.html 良哥下载的是&am…

Vue生命周期钩子

vue生命周期表示在组件创建后的一系列变化,其中钩子函数会在生命周期的关键节点中被调用 为什么在beforeCreated()时,data和methods方法还没有创建,但是在beforeCreated()里面打印this可以看到data相关的数据? 跟浏览器有关&…

k8s-14 存储之volumes

Volumes配置管理 容器中的文件在磁盘上是临时存放的,这给容器中运行的特殊应用程序带来一些问题。首先,当容器崩溃时,kubelet 将重新启动容器,容器中的文件将会丢失因为容器会以干净的状态重建。其次,当在一个 Pod 中…

手机有什么爬虫App工具?

随着智能手机的普及和应用的繁盛,越来越多的人开始对手机App进行数据爬取和分析。那么,在进行手机App爬虫的过程中,我们可以借助哪些工具呢?让我们一起来了解一下吧! 1、Fiddler Fiddler是一款功能强大的网络调试工具…

公司电脑监控软件|管控企业U盘,防止员工利用U盘泄密

德人合科技——电脑监控软件可以通过U盘管理系统管控企业U盘,防止员工利用U盘泄密。 PC访问地址:https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 其具体功能如下: U盘接入管控:单位内电脑能否使用U…

Harbor 安装部署

Harbor基本介绍 1、Harbor 是 VMware 公司开源的企业级 Docker Registry 项目,Harbor 是一个企业级的 Docker 私有仓库项目。 2、Harbor以 Docker 公司开源的 Registry 为基础,提供了图形管理 UI 、基于角色的访问控制(Role Based AccessControl) 、AD/L…

ETX很小

windows桌面调节分辨率即可:

shopee平台现在好做吗

Shopee 是一家知名的电子商务平台,特别在东南亚地区非常流行。是否在 Shopee 平台做生意是否好做取决于多种因素,包括你的产品、市场竞争、营销策略和运营能力等。 以下是一些考虑因素: 1、产品选择:选择畅销的产品或具有市场需求…

Linux使用rpm包安装mysql5.7

以前安装过mysql 前言:检查以前是否装有mysql rpm -qa|grep -i mysql安装了会显示:   bt-mysql57-5.7.31-1.el7.x86_64 停止mysql服务和删除之前安装的mysql rpm -e bt-mysql57-5.7.31-1.el7.x86_64查找并删除mysql相关目录 find / -name mysql/va…

教育课堂小程序,三分钟打造专属小程序 带完整搭建教程

大家好哇,今天来给大家分享一款教育课堂小程序。现如今,线上教育已经普及,在大学课堂里,老师尝尝是使用各种各样的学习APP进行点名,签到,答题,考试等等,相较于传统的APP来说&#xf…

oracle11g安装图解

软件需求 1.安装CentOS6.5的服务器一台 2.Oracle 11g 安装介质: linux.x64_11gR2_database_1of2.zip linux.x64_11gR2_database_2of2.zip 3.命令行客户端工具xshell、crt或者putty 4.图形界面客户端工具Xming 系统配置检查 1.内存检查 grep MemTotal /proc/m…

dubbogo-1 基础rpc服务

文章目录 基本环境处理编译pb接口开启rpc调用业务观察qa1 能取出protoc里面的字段值吗? 基本环境处理 https://cn.dubbo.apache.org/zh-cn/overview/quickstart/go/install/ 这里没有 protoc-gen-go --version 执行 go get -u github.com/golang/protobuf/protoc…

竞赛选题 深度学习乳腺癌分类

文章目录 1 前言2 前言3 数据集3.1 良性样本3.2 病变样本 4 开发环境5 代码实现5.1 实现流程5.2 部分代码实现5.2.1 导入库5.2.2 图像加载5.2.3 标记5.2.4 分组5.2.5 构建模型训练 6 分析指标6.1 精度,召回率和F1度量6.2 混淆矩阵 7 结果和结论8 最后 1 前言 &…

Windows 事件日志监控

Windows 事件日志是记录 Microsoft 系统上发生的所有活动的文件,在 Windows 环境中,将记录系统上托管的系统、安全性和应用程序的事件,事件日志提供包含有关事件的详细信息,包括日期、时间、事件 ID、源、事件类型和发起它的用户。…

拭目以待!万博智云亮相2023长沙·中国1024程序员节

2023年10月23 - 25日,第四届“长沙中国 1024 程序员节”将在中国长沙盛大举行,万博智云 OneProCloud将以大会钻石合作伙伴身份重磅亮相,CEO Michael将发表主题演讲。这也是万博智云首次成为长沙中国 1024 程序员节合作伙伴。 1.主题演讲 万博…

Qt/C++开源作品45-CPU内存显示控件/和任务管理器一致

一、前言 在很多软件上,会在某个部位显示一个部件,专门显示当前的CPU使用率以及内存占用,方便用户判断当前程序或者当前环境中是否还有剩余的CPU和内存留给程序使用,在不用打开任务管理器或者资源查看器的时候直接得知当前系统的…

求最大公约数的几种常见的方法 【详解】

目录 一、关于公约数 二、计算最大公约数的方法 1. 辗转相除法(欧几里得算法) 2. 更相减损法(辗转相减法) 3. 分解质因数法 4. 穷举法 5. 递归法 6. 短除法 三、总结 一、关于公约数 首先 ,先介绍一下公约…