Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)

PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一个更好的选择。
本文将介绍如何使用Python编程语言,结合库和工具,将PDF文件转换为可编辑的Word文档,使文档的编辑变得方便高效。本文包含以下及个方面:

  • PDF文件转Word文档的优势
  • 通过Python将PDF文件转为Word文档(Doc和Docx)
  • 通过Python将PDF文档转换为Docx文件并设置文档属性

本文所介绍的方法需要用到Spire.PDF for Python,可从官网下载或通过PyPI安装:pip install Spire.PDF

PDF文件转Word文档的优势

将PDF文件转换为Word文档可以带来诸多优势,包括以下几个常见方面:

  • 便于编辑和修改:PDF文件通常适合阅读及打印,直接编辑会非常困难,且难以达到理想的效果。将PDF转换为Word文档可以方便进行修改、添加或删除文本、更改格式等诸多操作。
  • 便于协作编辑:使用Word文档进行协作编辑是共同创作的理想解决方案。许多协作编辑平台支持实时更新编辑内容,为内容创作带来极大的便利。而PDF文件想要利用这些方便的协作编辑特性,就需要转换为Word文档。
  • 数据提取:有时候我们需要从PDF文件中提取特定的数据或文本内容。将PDF转换为Word文档可以更轻松地提取所需的信息,并进行进一步的数据处理和分析。

通过Python将PDF文件转为Word文档(Doc和Docx)

PdfDocument 类代表一个PDF文档,使用其下的 LoadFromFile() 方法即可从文件载入PDF文档。在载入文档后,我们可以使用 PdfDocument 类下的 SaveToFile() 方法将PDF文档转换为其他格式的文件并保存,包括Doc、Docx、HTML、SVG等格式。在使用SaveToFile()方法时,只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。

下面是操作步骤介绍:

  1. 导入模块。
  2. 创建PdfDocument类的实例。
  3. 使用 LoadFromFile() 方法载入PDF文件。
  4. 使用 SaveToFile() 方法将PDF文档转换为DOC或DOCX格式的Word文档,并关闭实例。

代码示例:

from spire.pdf import PdfDocument
from spire.pdf import FileFormat# 创建PdfDocument类的实例
pdf = PdfDocument()# 载入PDF文件
pdf.LoadFromFile("示例.pdf")# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)# 关闭实例
pdf.Close()

原PDF文档:
PDF转Word

转换结果:
PDF转Word

通过Python将PDF文档转换为Docx文件并设置文档属性

除了上述方法外,还可以使用PdfToDocConverter类并将文件路径作为参数创建转换实例。使用此类进行转换时,还可以对文件属性进行设置。此方法只能转换为DOC和DOCX文件。
下面是操作步骤介绍:

  1. 创建 PdfToDocConverter 的实例。
  2. 通过 PdfToDocConverter.DocxOptions 属性下的属性对转换出的Word文档的文档属性进行设置。
  3. SaveToFile() 将PDF文件保存为DOC或DOCX文件,参数为True表示转换为DOCX文件,参数为False则表示转换为DOC文件。

代码示例:

from spire.pdf import PdfToDocConverter# 创建PdfToDocConverter类的实例
converter = PdfToDocConverter("G:/文档/示例21.pdf")# 设置转换出的Word文档的文档属性
converter.DocxOptions.Title = "企业计划"
converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
converter.DocxOptions.Categories = "工作计划"
converter.DocxOptions.Commments = "本计划为草案,制定了工作计划的大致内容,需要进一步讨论确定详细内容。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王银"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企业名"
converter.DocxOptions.Manager = "企业名"# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)

转换出的Word文档的文档属性:
PDF转Word

总结

以上文章展示了如何通过Python代码将PDF文件转换为Word文档,包括转换为DOC格式和DOCX格式,以及在转换时设置结果文档的文档属性。Spire.PDF for Python还支持转换PDF文件为其他诸多格式,包括网页文件(HTML)、SVG、JPEG和PNG图片、Tiff、RTF等格式,请前往Spire.PDF for Python教程查看详情。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/584613.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3.0飘红报警问题

问题一: 问题描述:组件引用找不到模块“”或其对应的类型声明 imort Home from ".../view/Home.vue" 解决方法:安装插件TypeScript Vue Plugin(Volar) 问题二: 问题:vue内置api引用:找不到模块"vue-route".你的意思是将"moduleResolution"选项置…

SimpleCG小游戏开发系列(2)--贪吃蛇

一、前言 在之前的C语言小游戏开发系列我们已经介绍了扫雷游戏的开发,本篇我们继续此系列第二篇,同样是比较简单但好玩的一个游戏--贪吃蛇。因为有了之前的游戏框架,我们只需要直接搬来原来的框架即可,可以省去不少活。 先看看游…

java数据结构与算法刷题-----LeetCode 680. 验证回文串 II

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 思路:双指针 详情见代码注释 class Solution {//贪心双指针&a…

什么是工厂方法模式,工厂方法模式解决了什么问题?

工厂方法模式是一种创建型设计模式,它定义了一个用于创建对象的接口,但将实际的实例化过程延迟到子类中。这样,客户端代码在不同的子类中实例化具体对象,而不是直接实例化具体类。工厂方法模式允许一个类的实例化延迟到其子类&…

Springboot实现登录注册

功能:1、实现用户的登录 2、实现用户的注册以及重名的判断 LoginControl: package com.example.demo.controls;import org.springframework.beans.factory.annotation.Autowired; import org.springframework.web.bind.annotation.RequestMapping; imp…

CEC2017(Python):五种算法(HHO、RFO、OOA、PSO、GWO)求解CEC2017

一、5种算法简介 1、哈里斯鹰优化算法HHO 2、红狐优化算法RFO 3、鱼鹰优化算法OOA 4、粒子群优化算法PSO 5、灰狼优化算法GWO 二、CEC2017简介 参考文献: [1]Awad, N. H., Ali, M. Z., Liang, J. J., Qu, B. Y., & Suganthan, P. N. (2016). “Problem d…

【PythonRS】基于矢量范围批量下载遥感瓦片高清数据(天地图、高德、谷歌等)

这个是之前写的代码了,正好今天有空所以就和大家分享一下。我们在处理项目时,有时候需要高清底图作为辅助数据源去对比数据,所以可能会需要卫星数据。所以今天就和大家分享一下如何使用Python基于矢量范围批量下载高清遥感瓦片数据。 1 读取矢…

resnet18

ResNet18的基本含义是,网络的基本架构是ResNet,网络的深度是18层。但是这里的网络深度指的是网络的权重层,也就是包括池化,激活,线性层。而不包括批量化归一层,池化层。 transforms.RandomCrop(32, pa…

[Java][IOStream][BufferedReader]的readLine/writeLine方法-游戏储存信息必备

在游戏的信息存储里面,我们经常需要保存一些玩家的属性 比如:生命值/魔法值/攻击力 假设我们将数据储存在一个txt文档中,那么使用这个方法就可以实现逐行的读取 import java.io.BufferedReader; import java.io.FileReader; import java.i…

代码随想录算法训练营第52天|● 300.最长递增子序列 ● 674. 最长连续递增序列 ● 718. 最长重复子数组

300. 最长递增子序列 已解答 中等 相关标签 相关企业 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,…

RabbitMQ 核心概念(交换机、队列、路由键),队列类型等介绍

RabbitMQ 核心概念(交换机、队列、路由键),队列类型等介绍 RabbitMQ 是一个消息队列系统,它的核心概念包括交换机(Exchange)、队列(Queue)和路由键(Routing Key),它们一起…

Apache Flink连载(二十):Flink On Yarn运行 - Yarn Per-Job模式(弃用)

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录 1. 任务提交命令 2. 任务…

OCP NVME SSD规范解读-4.NVMe IO命令-2

NVMe-IO-3: 由于设备具有掉电保护功能(如Power Loss Protection,PLP),因此在以下情况下,性能不应降低: FUA(Force Unit Access):是计算机存储设备中的一种命…

Grafana告警发送至飞书配置指定at某人或所有人

1.问题描述 通过webhook向飞书机器人发送消息,根据飞书机器人官方文档,始终无法指定某个人或者所有人通知,后来发现是文档参数有问题。 文档地址:https://open.feishu.cn/document/client-docs/bot-v3/add-custom-bot 官方文档给…

谷达冠楠:抖店怎么运营提升销量

随着电商行业的快速发展,抖店作为抖音平台上的一种新型电商模式,越来越受到商家和消费者的青睐。然而,如何在众多的抖店中脱颖而出,提升销量呢?本文将从以下几个方面为大家分享一些运营技巧。 选品策略:选对产品是提升…

day3双指针

输入一字符串&#xff0c;然后将该字符串中的单词分割开来 #include <iostream> #include <string.h> using namespace std; int main() {char str[1000];gets(str);int nstrlen(str);for(int i0;i<n;i){int ji;while(str[j]! &&j<n) j;for(int ki;k…

Gooxi受邀出席2023松山湖软件和信息服务业高质量发展大会

为推动粤港澳大湾区的软件和先进制造产业的融合发展&#xff0c;“2023松山湖软件和信息服务业高质量发展大会”于今日在松山湖畔隆重举办&#xff0c;会议以“推动软件和制造业深度融合发展&#xff0c;打造软件和信息服务业集聚高地”为主题&#xff0c;聚焦工业软件应用、智…

JavaScript(简写js)常用事件举例演示

目录 1.窗口事件onblur :失去焦点onfocus:获得焦点onload:窗口加载事件onresize:窗口大小缩放事件 二、表单事件oninput &#xff1a;当文本框内容改变时 &#xff0c;立即将改变内容 输出在控制台onchange&#xff1a; 内容改变事件onclick&#xff1a;鼠标单击时触发此事件 三…

Arduino串口发送接收和串口中断事件

目录 一、硬件介绍 1、控制器 2、TTL转USB串口 二、软件程序 1、单片机发送字符串 &#xff08;1&#xff09;每个串口对应的类名称介绍 &#xff08;2&#xff09;发送功能 &#xff08;3&#xff09;代码 &#xff08;4&#xff09;测试 2、单片机接收字符串 &…

【Linux Shell学习笔记】Linux She的流控制

1、 if条件判断 1.1 格式 1.1.1 单分支 if [ 判断表达式 ];then 代码块 fi 1.1.2 双分支 if [ 判断表达式 ];then 代码1 else 代码2 fi 1.1.3 多分支 if [ 判断表达式1 ];then 代码1 elif [ 判断表达式2 ];then 代码2 elif [ 判断表达式3 ];then 代…