pdf文档内容提取pdfplumber、PyPDF2

news/2025/4/11 12:32:44/文章来源:https://blog.csdn.net/weixin_42357472/article/details/133675091

测试pdfplumber识别效果好些；另外pdf这两个如果超过20多页就没法识别了，结果为空

1、pdfplumber

安装：pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码：

import pdfplumberwith pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:num_pages = len(pdf.pages)print(num_pages)for page_num in range(num_pages):page = pdf.pages[page_num]text = page.extract_text()print(text)

原内容
在这里插入图片描述
识别结果：

2、PyPDF2

安装：pip install PyPDF2

代码：

import PyPDF2
from tqdm import tqdmpdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:pdfReader = PyPDF2.PdfReader(pdfFileObj)for page in tqdm(pdfReader.pages):pdftext += page.extract_text()print(pdftext)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/99756.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

switch case 枚举常量

方法 Overridepublic OrderServeStatusEnumListResp orderServeStatusEnumList(String typeEnum) {String accountId LoginUtils.getLoginAccountId();log.info("OrderServiceServiceImpl.orderServeStatusEnumList ; 订单状态枚举类查询开始 accountId: {}", acco…

《C++ Primer》第5章语句

参考资料： 《C Primer》第5版《C Primer 习题集》第5版 5.1 简单语句（P154） 在一个表达式的末尾加上 ; 就构成了表达式语句，其作用是执行表达式并丢弃结果。空语句由单独的 ; 构成的语句为空语句。空语句常用于语法上需要一…

Nginx 访问http强制自动跳转到https

根据项目需求，需要在nginx上开启SSL配置证书，https访问域名然后访问后端的http tomcat程序。需要设置http 80强制跳转https。 80配置添加 rewrite ^(.*)$ https://${server_name}$1 permanent; 完整配置信息如下 server {listen 80;server_nam…

Vue中的router路由的介绍（快速入门）

路由的介绍文章目录路由的介绍1、VueRouter的介绍2、VueRouter的使用（52）2.1、5个基础步骤(固定)2.2、两个核心步骤 3、组件存放的目录（组件分类） 生活中的路由：设备和ip的映射关系（路由器） V…

Ceph入门到精通-Nginx超时参数分析设置

nginx中有些超时设置，本文汇总了nginx中几个超时设置 Nginx 中的超时设置包括： “client_body_timeout”：设置客户端向服务器发送请求体的超时时间，单位为秒。 “client_header_timeout”：设置客户端向服务器发送请…

5项先进采购技术，帮助你的企业脱颖而出

持续的改进对保持每个企业的正常运转有着重要作用，采购部门也不例外。以前，采购团队主要关注两个方面：降低成本和减少风险。随着自动化和云服务的兴起，如今他们还需要关注采购决策的效率、可访问性和可持续性。技术与采购的融合…

基于Dockerfile创建镜像实战

SSH镜像 cd /opt/sshdvim Dockerfile #第一行必须指明基于的基础镜像 FROM centos:7 #作者信息 MAINTAINER this is ssh image <hmj> #镜像的操作指令 RUN yum -y update RUN yum -y install openssh* net-tools lsof telnet passwd RUN echo abc1234 | passwd --stdin…

【AI视野·今日Robot 机器人论文速览第四十八期】Thu, 5 Oct 2023

AI视野今日CS.Robotics 机器人学论文速览 Thu, 5 Oct 2023 Totally 32 papers 👉上期速览✈更多精彩请移步主页 Daily Robotics Papers LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Authors Hao Sha, Yao Mu, Yuxuan Jiang, Li…

对音频切分成小音频（机器学习用）

我是把so-vits中小工具，分析源码然后提取出来了。以后可以写在自己的程序里。 -------流程（这是我做的流程，你可以不用看） 从开源代码中快速获取自己需要的东西如果有界面f12看他里面的接口，然后在源码中全局搜索&…

Stable Diffusion生成图片

画质 masterpiece,best quality,illustration,extremely detail CG unity 8k wallpaper,ultra-detailed,depth of field 杰作，最佳质量，插图，极度详细的8K壁纸，超高详细度，景深画风 Chinese ink painting,water color…

如何在虚幻引擎中渲染动画？

大家好，今天我将展示如何在虚幻引擎中渲染动画，以及虚幻引擎渲染动画怎么设置的方法步骤。需要提前了解： 虚幻引擎本地运行慢、渲染慢、本地配置不够，如何解决？ 渲云云渲染支持虚幻引擎离线渲染，可批量…

【Python】WebUI自动化—Selenium的下载和安装、基本用法、项目实战（16）

文章目录一.介绍二.下载安装selenium三.安装浏览器驱动四.QuickStart—自动访问百度五.Selenium基本用法1.定位节点1.1.单个元素定位1.2.多个元素定位 2.控制浏览器2.1.设置浏览器窗口大小、位置2.2.浏览器前进、刷新、后退、关闭3.3.等待3.4.Frame3.5.多窗口3.6.元素定位不到…

mysql字段类型与oracle字段类型对应关系

MySQL与Oracle两种数据库在工作中，都是用的比较多的数据库，由于MySQL与Oracle在数据类型上有部分差异，在我们迁移数据库时，会遇上一定的麻烦，下面介绍MySQL与Oracle数据库数据类型的对应关系。一、常见数据类型在MyS…

qt 关于自定义控件，然后其他页面提升后背景样式表不生效问题

一、自定义控件如果是widget ，需要再widget 里放一个QFrame ，在QFrame设置样式表背景才行二、重写paintEvent void Form::paintEvent(QPaintEvent *e) {QStyleOption opt;opt.init(this);QPainter p(this);style()->drawPrimitive(QStyle::PE_Widg…

$2023-10-10 mysql-{mysql_alter_table}-出错后回滚-记录$