python | 简易版: pdf 转换为 word 方法

一、 前言

本文利用python将pdf转换为word方法,需要用到两个第三方模块,分别是:
(1)pdfplumber,用来解析pdf文档,包括pdf的基本信息(作者、创建时间、修改时间…)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。
(2)python-docx,可用来创建、修改word文档(.docx),提供全套的word操作,是较为常用的一个操作word的python库。
以上两者,都可以使用pip命令直接安装,具体命令如下:

pip install pdfplumber
pip install python-docx

二、pdf转换为word方法详解

以下代码块,实现提取pdf文件内容,并保存word中。
复制并运行代码,输入需要转换的pdf文档详细路径,回车即可。

import pdfplumber
from docx import Document# 新建一个word,用来保存pdf内容
def get_newword(file_path):doc = Document()doc.save(file_path+r'\res.docx')# 提取pdf中的所有文本,并保存到word中
def get_con(file_path):tem_path = '\\'.join(file_path.split("\\")[:-1])# 新建一个wordget_newword(tem_path)doc = Document(tem_path+r'\res.docx')with pdfplumber.open(file_path) as pdf:for i, page in enumerate(pdf.pages):  # 默认取pdf中所有存在页con = page.extract_text()doc.add_paragraph(con)print('-----------分割线,第%d页-----------' % (int(i) + 1))doc.save(tem_path+r'\res.docx')print('保存成功第%d页' % (int(i) + 1))if __name__ == "__main__":# 输入文件路径全称,如:E:\pytest\pdfp\data\test.pdfprint(r'文件路径示例:E:\pytest\pdfp\data\test.pdf')file_path = input('请输入需要转化的pdf文件路径:')get_con(file_path)

(一)上述代码释义、说明

(1)pdfplumber提取pdf文本内容方法
方法:extract_text(),返回一个字符串,其中包含页面中的所有文本。如果只想提取页面的一部分文本,可以将提取的区域作为参数传递给extract_text() 方法。
需要注意的是: extract_text()方法,提取的是pdf页面中的所有文本内容,包括表格中的文本,但是不会保留表格的格式,只是纯文本内容。且不会保存pdf中的图片。
(2)python-docx基础用法
上述代码主要使用了写入段落的方法:

add_paragraph(text=’’,style=None)

text:段落内容,style:设置样式。

三、总结

本文仅是简单实现将pdf文本内容保存到word文档中,对图片和格式未做任何处理。如果仅需要pdf中的文字内容,不想去一一复制,算是一个免费简单的小工具,可供参考。

-end-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/183286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从意义中恢复,而不是从数据包中恢复

从书报,录放机,电视机到智能手机,vr 眼镜,所有学习的,娱乐的工具或玩具,几乎都以光声诉诸视听,一块屏幕和一个喇叭。 视觉和听觉对任何动物都是收发信息的核心,诉诸视觉和听觉的光和…

批量将本地N个英文Html文档进行中文翻译-源码篇

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分…

机器学习笔记 - 3D数据的常见表示方式

一、简述 从单一角度而自动合成3D数据是人类视觉和大脑的基本功能,这对计算机视觉算法来说是比较难的。但随着LiDAR、RGB-D 相机(RealSense、Kinect)和3D扫描仪等3D传感器的普及和价格的降低,3D 采集技术的最新进展取得了巨大飞跃。与广泛使用的 2D 数据不同,3D 数据具有丰…

[node] Node.js 中Stream流

[node] Node.js 中Stream流 什么是 Stream流操作从流中读取数据写入流管道流链式流 什么是 Stream Stream 是一个抽象接口,Node 中有很多对象实现了这个接口。例如,对http 服务器发起请求的request 对象就是一个 Stream,还有stdout&#xff…

SCI的写作前提——认识论文的本质

论文可以被视为证据和支持性解释的集合;也就是说,试图说服他人分享你的结论 1.假设 在大纲中,一个示例研究程序可以如下进行。 ● 研究算法的研究人员可能会推测是否有可能更好地利用CPU上的缓存来降低计算成本。 ● 初步研究可能会导致这样…

(C++)复写零--双指针法

个人主页:Lei宝啊 愿所有美好如期而遇 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://le…

【500强 Kubernetes 课程】第4章 dockerfile基础篇-基本语法

【读书笔记-首页】基于世界500强的高薪实战Kubernetes课程 第4章 dockerfile基础篇-基本语法 dockerfile:构建镜像的文本文件 1、FROM 作用:基础镜像来源 2、MAINTAINER 作用:作者信息 3、RUN 作用:构建过程中运行的命令 …

Firewalld端口富规则——删除默认开放的服务

在Redhat8.6中,firewalld默认开放了ssh、cockpit、dhcpv6-client三个服务的端口富规则。如果想把默认开放的服务关掉可以执行下面的命令: firewall-cmd --permanent --remove-servicessh firewall-cmd --permanent --remove-servicecockpit firewall-cmd…

ESP32-Web-Server 实战编程- 使用 AJAX 自动更新网页内容

ESP32-Web-Server 实战编程- 使用 AJAX 自动更新网页内容 概述 什么是 AJAX ? AJAX Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。 AJAX 是一种用于创建快速动态网页的技术。 传统的网页(不使用 AJAX&#…

PHP如何实现邮箱验证

在PHP中,提供了 mail() 函数用于发送邮件。使用该函数需要设置邮件头信息、收件人地址、邮件主题和邮件内容等参数。下面是一个简单的使用示例: $to 收件邮箱; $subject 邮件主题; $message 邮件内容; $from 发件邮箱; $headers "From: $from…

Linux 进程(一)

1 操作系统 概念:任何计算机系统都包含一个基本的程序集合,称为操作系统(OS)。笼统的理解,操作系统包括 内核(进程管理,内存管理,文件管理,驱动管理) 其他程序(例…

linux安装docker(脚本一键安装配置docker)

1、创建脚本 vi initDocker.sh #安装前先更新yum,防止连接镜像失败 yum -y update#卸载系统之前的docker(可选择,我这里直接注释了) #yum remove docker docker-client docker-client-latest docker-common docker-latest docke…

Go 谈论了解Go语言

一、引言 Go的历史回顾 Go语言(通常被称为Go或Golang)由Robert Griesemer、Rob Pike和Ken Thompson在2007年开始设计,并于2009年正式公开发布。这三位设计者都曾在贝尔实验室工作,拥有丰富的编程语言和操作系统研究经验。Go的诞生…

android开发:子线程更新UI界面

多线程操作经常希望在子线程更新界面,这样方便调试,但是,但是经常这样做程序就不对劲了,为什么呢?因为为了保证界面流畅,不允许在非UI线程直接操作界面,只能通过一些专门途径进行。另外&#xf…

Wordpress自动定时发布怎么开通-Wordpress怎么自动发布原创文章

在当今数字化时代,博客已经成为许多人分享观点、经验和知识的重要平台。然而,对于博主们来说,每天按时发布一篇又一篇的文章可能是一项具有挑战性的任务。为了解决这个问题,一些创新的工具应运而生,其中包括WordPress的…

vuepress-----4、侧边栏

# 4、侧边栏 # 自动生成侧栏 如果你希望自动生成一个仅仅包含了当前页面标题(headers)链接的侧边栏,你可以通过 YAML front matter 来实现: --- sidebar: auto ---你也可以通过配置来在所有页面中启用它: // .vuep…

深入探索 Vue 响应式原理:数据驱动视图的奥秘

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

Docker快速创建一个单机版的Jenkins实例

谈到 CI/CD,那便少不了这里面的佼佼者 Jenkins,正如 Jenkins 官网说的一样:“Build great things at any scale”,构建伟大,无所不能! 话不多说,该篇文章将会带你使用 Docker 快速创建一个单机…

COGVLM论文解读(COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、摘要二、引言三、模型方法1、模型思路2、融合公式 四、训练方法总结 前言 2023年5月18日清华&智谱AI发布并开源VisualGLM-6B以来,清华KEG&…

C++多线程-传递普通变量,指针,引用给线程

注意点&#xff1a; 1、传递空间已销毁 2、多线程共享一块内存 3、传递的指针变量的生命周期小于线程 #include <iostream> #include <thread> #include <string> #include <unistd.h>using namespace std;class Para {public:Para(){cout<<…