python 读取pdf中的文本

python 读取pdf中的文本

news/2025/4/27 22:18:10/文章来源:https://blog.csdn.net/sjxgghg/article/details/135196650

摘要
常常需要针对pdf进行文本分析，以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install pypdf2

import PyPDF2
filename = 'xxx.pdf'with open(filename, 'rb') as file:# 创建一个PDF阅读器对象reader = PyPDF2.PdfReader(file)# 遍历PDF中的每一页for page_num in range(len(reader.pages)):# 获取当前页面的文本内容text = reader.pages[page_num].extract_text()print(text)

方法二 langchain

pip install pypdf

def pdf_load(filename):# pip install pypdffrom langchain.document_loaders import PyPDFLoaderloader = PyPDFLoader(filename)return loader.load_and_split()res = pdf_load(filename)
print(res)

两种方法得到的结果，都在原文中出现了很多换行符。

输出如下:

双随机
、
一公开
”
食品药品市场监管机制
，
建立完善旗县
（
市
、
区
）
、
苏木乡镇食

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/558616.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

惠普打印机只打印一半_惠普打印机如何安装惠普打印机加墨方法【介绍】

惠普打印机只打印一半_惠普打印机如何安装惠普打印机加墨方法【介绍】

对于多数上班族和学生党来说，平时办公和学习不仅仅离不开电脑 ，与此同时还需要打印机起到辅助作用。目前市场上的打印机品牌较多，惠普就是其中知名度较高的一个牌子，拥有大批的消费群体。但是有些人在将打印机买回来之后&#…

阅读更多...

Spring Cloud —— RocketMQ 的消息类型

Spring Cloud —— RocketMQ 的消息类型

导航引言一、普通消息1.1 可靠同步发送1.2 可靠异步发送1.3 单向发送二、顺序消息三、事务消息3.1 什么是事务消息3.2 事务消息示例1、编写本地事务逻辑2、发送半事务消息3、注册本地事务监听器4、测试引言本文承接《Spring Cloud —— 消息队列与 RocketMQ》 RocketMQ 提供…

阅读更多...

城市运行一网统管_全国率先！“一屏观天下、一网管全城”，临港城市运行“一网统管”平台启动建设...

城市运行一网统管_全国率先！“一屏观天下、一网管全城”，临港城市运行“一网统管”平台启动建设...

景区里是否出现了大客流？渣土车是否有违规？工地上有没有安全隐患？……8月12日，临港新片区城市运行“一网统管”平台正式启动建设，临港新片区城市运行“一网统管”中长期规划也正式发布，通过构建具有临港新片…

阅读更多...

Spring Cloud Alibaba —— Nacos Config 配置中心

Spring Cloud Alibaba —— Nacos Config 配置中心

导航引言一、什么是配置中心二、常见的配置中心组件三、Nacos Config 入门四、Nacos Config 动态配置4.1 硬编码方式（默认支持动态生效）4.2 属性注入五、配置共享5.1 相同微服务不同环境间共享5.2 不同微服务配置共享六、Nacos Config 的几个概念总结引言…

阅读更多...

codesys com库_CODESYS在线库，酷德网镜像站启用

codesys com库_CODESYS在线库，酷德网镜像站启用

近期由于国内网络问题，造成 stroe.codesys.com 网站无法访问。在线库无法下载。为了不影响广大CODESYS用户的正常使用，酷德网建立stroe.codesys.com的国内镜像站:主站： https://store.hicodesys.com:8421/CODESYSLibs/备用站： …

阅读更多...

分布式事务的解决思路与方案

分布式事务的解决思路与方案

导航一、事务的种类与场景二、分布式事务解决方案2.1 全局事务2.2 可靠消息事务2.3 最大努力通知2.4 TCC 事务三、TCC 模式常见问题3.1 二阶段幂等3.2 空回滚3.3 资源悬挂一、事务的种类与场景本地事务实际上就是指数据库的事务，参考《MySQL —— 事务与隔离级别总…

阅读更多...

css3 下边框缓缓划过_干货来袭！web前端开发工程师必看之如何使用CSS3实现瀑布流效果？...

css3 下边框缓缓划过_干货来袭！web前端开发工程师必看之如何使用CSS3实现瀑布流效果？...

首先,我们来看一下什么是瀑布流布局效果,比如电商网站蘑菇街原理图:在一个大盒子里，放置多个小盒子，小盒子的大小可以不一致，长短不一样，呈现一种瀑布流的效果。使用CSS3S实现只需要如下4步:1. 准备图片素材2. 书写相应HTML结构3…

阅读更多...

Spring Cloud Alibaba —— Seata 分布式事务框架

Spring Cloud Alibaba —— Seata 分布式事务框架

导航一、Seata 介绍二、Seata 的工作原理2.1 三个角色2.2 工作流程三、Seata AT 工作机制3.1 一阶段3.2 二阶段四、案例演示（待补充）一、Seata 介绍官网：Seata 官网 Seata 是2019 年阿里巴巴中间件团队发起的开源项目，其前身是…

阅读更多...

云麦体脂秤华为体脂秤_华为、小米和有品体脂秤哪个品牌好？三款智能体脂秤横评结果排行...

云麦体脂秤华为体脂秤_华为、小米和有品体脂秤哪个品牌好？三款智能体脂秤横评结果排行...

如今生活水平的提高，也让更多人开始关注健康问题。由于大部分时间都忙于工作，本身就运动少、体重超标等等。如果长期得不到控制的话，会造成日后脂性肝炎、肝纤维化、肝癌，想想都可怕，在意识到这样的严重性，…

阅读更多...

Guava常用工具类的使用

Guava常用工具类的使用

导航引言一、Lists.partition引言本文用于记录工作中常用到的 Guava 工具类的使用。依赖引入： <dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>20.0</version></depend…

阅读更多...

idea 调用c#接口_Dubbo 接口测试方法

idea 调用c#接口_Dubbo 接口测试方法

一.直接通telnet然后用dubbo协议调用方法（1）在项目的配置文件中可以看到dubbo.protocol.port10022说明dubbo对外暴漏的端口为10022，直接用telnet访问此端口。telnet lcoalhost 10022然后就能看到说明连接成功。用ls查看服务查看服务下有那些方…

阅读更多...

MySQL 面试问答

MySQL 面试问答

导航一、什么是回表查询？如何避免回表查询？二、为什么MySQL建议使用自增主键？什么是代理主键、业务主键？三、为什么MySQL建议单表不超过2000W数据？四、MySQL自增id用完了怎么办？五、MySQL自增主键是连续的吗…

阅读更多...

tcs标准编写软件_【公益培训】知你所需 | 标准编写格式及TCS模板应用线上公益培训...

tcs标准编写软件_【公益培训】知你所需 | 标准编写格式及TCS模板应用线上公益培训...

企业标准编写的水平及TCS工具使用的能力是实施企业标准化工作的基础。TCS标准编写软件是辅助标准编写的工具性软件，方便标准编写人员快捷准确的编写标准草案，有效提升标准供给质量。为贯彻落实疫情防控和助力企业复工复产工作，山东标准化协会…

阅读更多...

Linux进阶之路——常用命令总结

Linux进阶之路——常用命令总结

一、帮助命令 help man type区分内建、外建命令【扩展】关于内建命令与外建命令。内建命令属于shell程序的一部分，包含一些比较简单的Linux命令。这些命令被写在/bin/bash 文件的 builtins 里面，由shell程序识别并在shell程序内部完成运行。通常在Li…

阅读更多...

bios设置联想m8000t_怎么进bios设置硬盘启动顺序

bios设置联想m8000t_怎么进bios设置硬盘启动顺序

操作说明：1、不同电脑进BIOS按键不一样，常见的有del、F1、F2、Esc、enter、F8、F9等2、在电脑启动时，不停按Del、F2等按键会进入BIOS设置界面，开机按哪个键进BIOS设置BIOS类型一：CMOS Setup Utility1、启动时按Del进入…

阅读更多...

MySQL 基础 ————事务与隔离级别总结

MySQL 基础 ————事务与隔离级别总结

引言在处理并发读或写时，可以通过实现一个由两种类型的锁组成的锁系统来解决问题： 共享锁（shared lock）和排它锁（exclusive lock），也叫读锁（read lock）和写锁&#xff0…

阅读更多...

32f407tim4时钟源频率_慎重选择时钟发生器，别让这俩指标影响你的ADC 「图片」...

32f407tim4时钟源频率_慎重选择时钟发生器，别让这俩指标影响你的ADC 「图片」...

系统设计师通常侧重于为应用选择最合适的数据转换器，在向数据转换器提供输入的时钟发生器件的选择上往往少有考虑。然而，如果不慎重考虑时钟发生器的相位噪声和抖动性能，数据转换器动态范围和线性度性能可能受到严重的影响。系统考虑因素采用…

阅读更多...

Spring —— IoC 容器详解

Spring —— IoC 容器详解

引言本篇博客总结自官网的《The IoC Container》，其中会结合王富强老师的《Spring揭秘》融入自己的语言和理解，争取通过这一篇文章彻底扫除spring IOC的盲区。本文介绍什么是 IoC 容器，什么是 Bean，依赖，Bean Defi…

阅读更多...

nvidia控制面板点了没反应win7_win7系统Nvidia控制面板怎么设置？

nvidia控制面板点了没反应win7_win7系统Nvidia控制面板怎么设置？

许多用户不知道Nvidia控制面板怎么设置?那么Nvidia控制面板如何设置呢?其实设置的方法很简单。接下来，小编就把Nvidia控制面板设置的方法告诉大家。1、首先在桌面右键点击选择NVIDIA控制面板。2、显卡的设置性能肯定是要高好了，所以在性能设置方面&…

阅读更多...

切割字符串_web前端如何使用字符串

切割字符串_web前端如何使用字符串

一、字符串概述定义：字符串就是用单引号或者双引号包裹起来的，零个或多个排列在一起的字符。例如：’javascript‘, “”, “345” , ’9-11a$‘, “xiao_yuanLian”嵌套：字符串可以嵌套。在单引号包裹的字符串内部，应该…

阅读更多...

最新文章