【Python】Python 批量转换PDF到Excel

PDF是面向展示和打印使用的,并未考虑编辑使用,所以缺少了很多编辑属性且非常难修改PDF里面的数据。当您需要分析或修改PDF文档数据时,可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴且可轻松编辑。本文将介绍如何使用  Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。


安装Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF
1.
转换PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:

创建一个 PdfDocument 对象
使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("Sample.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()

将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下:

总结:
除了将 PDF保存为Excel, Spire.PDF for python还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如 PDF to PNG, JPG,BMP等。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/259964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js showModalDialog参数的使用详解(转)

js showModalDialog参数的使用详解_javascript技巧_脚本之家 http://www.jb51.net/article/45281.htm 本篇文章主要是对js中showModalDialog参数的使用进行了详细的分析介绍,需要的朋友可以过来参考下,希望对大家有所帮助 基本介绍: showModa…

ad19生成gerber文件_在“AD19”中怎样将PCB文件转换为GERBER

四川自贡是历史悠久的老工业城市,上世纪八、九十年代,自贡的锅炉、泵业、阀门全国闻名,在近年发展中,电子产业也取得可喜的成绩。Altium Designer在设计电子产品中是应用较多的工具,它的版本更新很快,从最早…

让windows 2003启动后直接进入桌面

windows 2003启动后进入桌面需要解决的几个问题 1、如何去除掉 ctrlaltdel的提示界面 2、如何设置自动登录的用户名密码 3、在异常启动时会出现关闭事件跟踪程序 也会导致不能直接进入桌面 往往直接进入桌面是卡在了这个环节 一、去掉ctrlaltdel的提示界面 1、“开始-->运行…

【C】——C项目中的菜单功能(源码)

1 #include<stdio.h>2 #include<stdlib.h>3 4 int menu() //选择菜单5 {6 int result;7 printf("**********请选择&#xff1a;***********\n");8 printf("**********1.插入&#xff1a;***********\n");9 printf(&quo…

a 中调用js的几种方法

我们常用的在a标签中有点击事件&#xff1a;1. a href"javascript:js_method();"这是我们平台上常用的方法&#xff0c;但是这种方法在传递this等参数的时候很容易出问题&#xff0c;而且javascript:协议作为a的href属性的时候不仅会导致不必要的触发window.onbefore…

MapReduce实现手机上网日志分析(分区)

一、问题背景 实际业务的需要&#xff0c;比如以移动为例&#xff0c;河南的用户去了北京上网&#xff0c;那么他的上网信息默认保存在了北京的基站&#xff0c;那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息&#xff0c;否则只能扫描日志…

肺功能曲线图怎么看_如何看肺功能结果报告单

收藏进泽 2006-05-18 22:34:46常规通气功能&#xff1a;所有的指标都要在预计值的80&#xff05;以上&#xff0c;一秒率要在70&#xff05;以上(因为低于70&#xff05;就是COPD).FVC低于80&#xff05;&#xff0c;诊断限制性通气&#xff1b;一秒率低于70&#xff05;&#…

html 模板配置,模板文件配置

模板文件一定要小写下划线&#xff0c;如 list_pubu.html你可以给你每一个模板文件增加一个json配置文件,用于描述这个模板文件;配置文件和模板文件名是同名的,只是后缀为 json,如simpleboot3/portal/index.html模板文件的配置文件就是simpleboot3/portal/index.json;一个简单的…

POJ 3009 Curling 2.0(简单DFS)

题意&#xff1a; 每一次碰到障碍则在障碍的旁边停下来&#xff0c;并且障碍被击碎。此时可以重新值掷一次冰球。当掷球次数超过 10 次则输出 -1。 思路&#xff1a; 1. 超过 10 次输出 -1 这个剪枝很关键&#xff1b; 2. 主要是要注意些边界条件&#xff0c;初始化的情况&…

封装 oschina.net 表情选择

1. [代码]jquery.facial.js //从OSCHINA.NET 提取出来的 表情选择 插件 by zhouxiang //如果有不满足的地方 可以自己改改 没事随便写写的 style 和 html 都被我弄到JS里了 这样方便简洁jQuery.fn.extend({ facial: function (opts) { var _self this, _this $…

JNI学习积累之一 ---- 常用函数大全

本文原创&#xff0c;转载请注明出处&#xff1a;http://blog.csdn.NET/qinjuning 最近一段时间&#xff0c;在工作方面比较闲&#xff0c;分配的Bug不是很多&#xff0c;于是好好利用这段时间就着源代码看了些许模块&#xff0c; 主要方式 还是贼看贼看代码&#xff0c; 同时利…

计算机专业四次评估,教育部第四次“计算机专业”学科评估,四所高校获A+评级...

随着2017年权威的第四次学科评估结果出炉后&#xff0c;相信很多高校学科上实力的争议应该可以平息了。这也是国内官方的学科排名&#xff0c;一共分为12等。入围学科的最高等级为A&#xff0c;最低评级为C-&#xff0c;如果在同一评级内&#xff0c;按学校代码先后依次排序。本…

正则领悟

入门 学习正则表达式的最好方法是从例子开始&#xff0c;理解例子之后再自己对例子进行修改&#xff0c;实验。下面给出了不少简单的例子&#xff0c;并对它们作了详细的说明。 假设你在一篇英文小说里查找hi&#xff0c;你可以使用正则表达式hi。 这几乎是最简单的正则表达式了…

微软风格的CSS横向菜单

<head> <meta http-equiv"Content-Type" content"text/html; charsetgb2312" /> <title>水平导航菜单&#xff08;DIVCSS&#xff09;</title> <style type"text/css"> body{ background: #FFF; font-family: Ari…

php函数库快速记忆法_PHP速成大法

简单介绍一下PHP的语法1、嵌入方法&#xff1a;类似ASP的&#xff0c;当然您也可以自己指定。2、引用文件&#xff1a;引用文件的方法有两种&#xff1a;require 及 include。require 的使用方法如 require("MyRequireFile.php"); 。这个函数通常放在 PHP 程序的最前…

html css精灵,谈谈CSS Sprites(css精灵)

CSS Sprites在国内很多人叫css精灵&#xff0c;其实这个技术不新鲜&#xff0c;这个技术老到什么程度呢&#xff0c;我不敢确定&#xff0c;但是我看到最早的关于CSS Sprites是在Dave Shea的《CSS Sprites: Image Slicing’s Kiss of Death》&#xff0c;时间是March 05, 2004 …

分布式搜索 Elasticsearch —— 节点实例化

为什么80%的码农都做不了架构师&#xff1f;>>> 要连接到集群&#xff0c;首先要告诉集群&#xff1a;你是谁&#xff0c;你有什么特征。在 ES 中体现为实例化节点。 ES 通过 org.elasticsearch.node.NodeBuilder 的 build() 或者 node() 方法实例化节点&#xff0…

计算几何/sgu 124 Broken line

题意 给出由n条线段围成的多边形&#xff08;每条边均平行于坐标轴&#xff09;&#xff0c;以及一个点(x0,y0)&#xff0c;问这个点是在形内或是形外或是形上 分析 对于在线段上&#xff0c;比较容易判断&#xff0c;直接比较一下坐标的位置即可&#xff1b; 若不在形上&#…

(转)在ios android设备上使用 Protobuf (使用dll方式)

自&#xff1a;http://game.ceeger.com/forum/read.php?tid13479 如果你的工程可以以.Net 2.0 subset模式运行&#xff0c;请看这个帖子中的方法。 地址&#xff1a;http://game.ceeger.com/forum/read.php?tid14359&fid27 如果只能以.Net 2.0下运行&#xff0c;就可以继…

ps 毛发 边缘_Adobe Photoshop抠图技巧/抠图后头发边缘的颜色处理方法教程!

PS教学第1&#xff11;期抠图技巧和抠图后的头发边缘的颜色处理的解释本篇抠图技巧教程除了跟大家分享了抠头发的方法外&#xff0c;还分享如何解决抠头发后头发周围的异色&#xff0c;如白边紫边等问题。教程作者没有提供素材&#xff0c;大家可以找其他图片来练习。有些时候想…