aip格式转化为pdf_python提取pdf文档中的表格数据、svg格式转换为pdf

提取pdf文件中的表格数据原文链接

https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf-document-using-camelot-in-python/

另外还参考了这篇文章

https://camelot-py.readthedocs.io/en/master/

实现提取pdf文档中的表格数据需要使用camelot模块 

这个模块可以直接使用pip进行安装

pip install "camelot-py[cv]"

用到的pdf示例文件可以直接在原文链接处下载

http://gstcouncil.gov.in/sites/default/files/gst-revenue-collection-march2020.pdf

第一步是读入pdf文件

import camelot
tables = camelot.read_pdf('gst-revenue-collection-march2020.pdf', flavor='stream', pages='0-3')

这里flavor参数的作用暂时还不知道 

如果表格跨页需要指定pages参数

tables
tables[2]
tables[2].df

tables可以返回解析获得的表格数量 

tables[2]获取指定的表格 

tables[2].df将表格数据转换成数据框

pandas 中两个数据框按照行合并需要用到append()方法

aa = {"A":[1,2,3],"B":[4,5,6]}
bb = {"A":[4],"B":[7]}
import pandas as pd
a = pd.DataFrame(aa)
b = pd.DataFrame(bb)
a.append(b)

SVG格式转换为pdf格式原文链接

https://www.tutorialexample.com/a-simple-guide-to-python-convert-svg-to-pdf-with-svglib-python-tutorial/

实现这个功能需要使用到的是svglib这个库,直接使用pip安装

pip install svglib

svg转换为pdf格式代码

from svglib.svglib import svg2rlg
from reportlab.graphics import renderPDF
drawing = svg2rlg("home.svg")
renderPDF.drawToFile(drawing, "file.pdf")

欢迎大家关注我的公众号

小明的数据分析笔记本06948cf8395d1d66347a936ecb79fb4d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/441830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html验证邮箱自动,html5+JavaScript进行邮箱地址验证

html5 网页特效 邮箱地址验证body, input, textarea {font-family: "helvetica", arial, helvetica;}label {display: block;float: left;clear: left;text-align: right;width: 100px;margin-right: 10px;}p { padding: 10px; }fieldset { border: 1px solid #ccc; …

6 rethad 自定义硬盘_图文详解zabbix配置自定义监控项过程

概述今天主要介绍一下zabbix如何去配置自定义监控模板,下面一起来看看吧!一、模板1、概念模板(template):可以应用到主机上的实体(包括监控项、触发器、数据图、图表、监控分类、低级的自动发现规则)的集合。当一个模板被应用到一个主机后&am…

【HDU - 1085 】Holding Bin-Laden Captive! (母函数)

题干: We all know that Bin-Laden is a notorious terrorist, and he has disappeared for a long time. But recently, it is reported that he hides in Hang Zhou of China! “Oh, God! How terrible! ” Don’t be so afraid, guys. Although he hides in a…

html超链接点不了_HTML、CSS、JS都有哪些区别?不看必悔

划重点HTML、CSS、及JS的区别有哪些?在日常学习中,html,css和js我们都学过,起初分不清这三者的区别和联系,随着知识的增长,有了一些体会。看一下这三项技术都是什么,能干什么?web前端…

2019游戏 f1_2019年F1中国大奖赛激情开跑,这款手游带你体验真实F1的魅力

不知不觉,F1中国大奖赛进入第16个年头。你是否还记得2018年的F1中国大奖赛,真是跌宕起伏,红牛队车手里卡多在第三次练习赛中爆缸,之后在车队技师的努力下才赶上排位赛,结果他在正赛时第6位发车,竟然超出对手…

docker jenkins 公钥_代码自动发布docker(20.10.1)+k8s(1.20.1)

PaaS平台Docker版本(20.10.1) 2020-12-15 k8s版本(1.20.1) 2020-12-19代码托管:https://github.com/kubernetes/官方网址:https://kubernetes.io/pod--容器外壳service--不是真正的服务是iptables或ipvs中的规则先创建pod,后创建service…

【HDU - 1272】小希的迷宫 (并查集判环)

题干: 上次Gardon的迷宫城堡小希玩了很久(见Problem B),现在她也想设计一个迷宫让Gardon来走。但是她设计迷宫的思路不一样,首先她认为所有的通道都应该是双向连通的,就是说如果有一个通道连通了房间A和B&…

东北育才高中2021年高考成绩查询,东北育才学校国际部2021年招生计划

学校每年的招生计划都会发生变化,并不是一成不变的,所以大家一定要时刻关注招生计划。在报考一所学校的时候,大家要有计划性的选择报考学校,要先去了解学校大概招收多少学生,这样大家在报考学校时候的才能更好地去选择…

html启动word程序,Word工具栏直接启动外部程序

Word工具栏直接启动外部程序互联网 发布时间:2008-10-06 15:13:37 作者:佚名 我要评论从Word工具栏中也能直接启动外部程序,这样操作起来非常方便。我们以从Word启动计算器举例说明。单击“工具”菜单下的“自定义”命令,打…

linux ip brd不一致_3 个方便的命令行网速度测试工具 | Linux 中国

用这三个开源工具检查你的互联网和局域网速度。-- Ben Nuttall能够验证网络连接速度使您可以控制计算机。使您可以在命令行中检查互联网和网络速度的三个开源工具是 Speedtest、Fast 和 iPerf。SpeedtestSpeedtest 是一个旧宠。它用 Python 实现,并打包在 Apt 中&am…

语言nomogram校准曲线图_R语言实现Cox模型校准度曲线绘制

01研究背景这是关于cox模型的第二篇文章,上一篇文章分享了运用Lasso回归如何筛选变量,将筛选后的变量绘制Nomogram图,本章分享构建模型后,如何绘制校准曲线。cox模型的验证不同于Logistic回归,cox的结局包括时间和状态…

转成数组_JavaScript之数组扁平化

今天给大家分享一下JavaScript的数组扁平化。1. 扁平化数组的扁平化,就是将一个嵌套多层的数组 array (嵌套可以是任何层数)转换为只有一层的数组。举个例子,假设有个名为 flatten 的函数可以做到数组扁平化,效果就会如下:知道了效…

【POJ - 2676】Sudoku (经典深搜,dfs数独)

题干: Sudoku is a very simple task. A square table with 9 rows and 9 columns is divided to 9 smaller squares 3x3 as shown on the Figure. In some of the cells are written decimal digits from 1 to 9. The other cells are empty. The goal is to fill…

overleaf表格_latex 表格制作

在制作latex表格时遇到了以下问题:一、合并单元格包括多行合并、多列合并、多行多列同时合并。多行合并: \multirow{2}{*}{Multi-Row}多列合并: \multicolumn{2}{|c|}{Multi-Column}多行多列同时合并:\multicolumn{2}{|c|}{\multi…

【HihoCoder - 1268】九宫 (dfs,深搜)

题干: 小Hi最近在教邻居家的小朋友小学奥数,而最近正好讲述到了三阶幻方这个部分,三阶幻方指的是将1~9不重复的填入一个3*3的矩阵当中,使得每一行、每一列和每一条对角线的和都是相同的。 三阶幻方又被称作九宫格,在…

河北师范大学计算机应用技术分数线,2019年河北师范大学各专业录取分数线

高考总分达到或超过某一分数线的考生档案,才有资格被招生高校调阅并选择录取。各高校不同专业每一年的录取分数线有所区别,下文是小编给大家整理的2019年河北师范大学各省各专业高考录取分数线详情,供参考!2019河北师范大学各省各…

计算机英语反思总结,计算机在英语教学中辅助作用的反思

计算机在英语教学中辅助作用的反思 (3页)本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!9.9 积分题目:计算机在英语教学中辅助作用的反思科目: SS 学校: 灵石第一职…

极限脱出 量子计算机,《极限脱出3:零时困境》难点解密攻略 剧情通关密码一览...

《极限脱出3:零时困境》这款解密游戏很多时候会卡住,如何通关呢?下面小编就给大家分享一下《极限脱出3:零时困境》中几个难点解密,需要过关密码的朋友可以收藏一下哦。游戏过程中经常会卡在三处:1.玩家发现…

mysql缓存淘汰机制_聊聊缓存淘汰算法-LRU 实现原理

前言我们常用缓存提升数据查询速度,由于缓存容量有限,当缓存容量到达上限,就需要删除部分数据挪出空间,这样新数据才可以添加进来。缓存数据不能随机删除,一般情况下我们需要根据某种算法删除缓存数据。常用淘汰算法有…

三个月计算机培训班,三个月复盘:学完两个设计软件,并开始学画画

从4月1日开始明确目标,到6月30日,整整三个月的时间,我一直在努力前行。其中有多次的调整,但整体方向不变。来梳理一下这三个月所做的事:4.1-5.26 完成PS学习(75课)5.27-6.26 完成CDR学习(65课)5.27 从零基础开始学习画…