vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定

办公自动化系列+12d84db7a688fc1c87c89b44d334731a7.png

现在,各类数据分析的书籍,都可以在网上找到PDF版本;

同时,百度文库、各类数据统计文库、行业研究等众多论文报告,是通过PDF的形式去展示输出的;

但是,令人都头疼的是,各类数据分析书中,PDF版本中的表格数据,我们想转化成自己的数据库文件,或者EXCEL文件,却是很难编辑;

今天,就给大家解决这个问题,利用Python,将PDF中的表格和数据读取出来,并写入EXCEL中保存到本地;

先上代码,代码只有30行;

源PDF文件中的表格数据:

5d34abb3d7fbbd32ac6e0827b5106730.png

代码:

# -*- coding: utf-8 -*-
"""
请确保你在运行这个代码的时候,已经安装了pdfplumber库
如果没有安装,请在[附件-命令提示符]下输入:
pip install pdfplumber
"""

import pdfplumber
import xlwt

# 定义保存Excel的位置
workbook = xlwt.Workbook()  #定义workbook
sheet = workbook.add_sheet('Sheet1')  #添加sheet
i = 0 # Excel起始位置

path = input("请输入PDF文件位置:")
#path = "aaaaaa.PDF"  # 导入PDF路径
pdf = pdfplumber.open(path)
print('\n')
print('开始读取数据')
print('\n')

for page in pdf.pages:
    # 获取当前页面的全部文本信息,包括表格中的文字
    # print(page.extract_text())
    for table in page.extract_tables():
        # print(table)
        for row in table:
            print(row)
            for j in range(len(row)):
                sheet.write(i, j, row[j])
            i += 1
        print('---------- 分割线 ----------')

pdf.close()

# 保存Excel表
workbook.save('保存路径/文件名.xls')
print('\n')
print('写入excel成功')
print('保存位置:')
print('保存路径/文件名.xls')
print('\n')
input('PDF取读完毕,按任意键退出')

最终导出的EXCEL文件:

1a11935b17d949de1596acfb633d4fb8.png

简简单单30行代码,就将PDF中的表格数据读取出来,并写入EXCEL啦;

625be4bd257fac774bb04a1332130280.png

拓展:

1、pdfplumber简介

Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。

2、pdfplumber安装

安装直接采用pip即可。命令行中输入

pip install pdfplumber

3、简单使用

import pdfplumber
with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0])

pdfplumber.pdf中包含了.metadata和.pages两个属性。

  • .metadata是一个包含pdf信息的字典。
  • .pages是一个包含页面信息的列表。

每个pdfplumber.page的类中包含了几个主要的属性。

  • .page_number 页码
  • .width 页面宽度
  • .height 页面高度
  • .objects/.chars/.lines/.rects 这些属性中每一个都是一个列表,每个列表都包含一个字典,每个字典用于说明页面中的对象信息, 包括直线,字符, 方格等位置信息。

4、一些常用的方法

  • .extract_text() 用来提取页面中的文本,将页面的所有字符对象整理为的那个字符串
  • .extract_words() 返回的是所有的单词及其相关信息
  • .extract_tables() 提取页面的表格

python自动化办公宝典

其中 《python自动化办公宝典》 共包含六个章节97页,不仅有详细的代码解释,而且还有详细的图文说明,通俗易懂,让你轻松完成办公自动化。

  • python使用openpyxl操作excel;
  • python使用PyPDF2和pdfplumber操作pdf;
  • python使用python-docx操作word;
  • python使用python-pptx操作PPT;
  • python如何自动收发邮件;
  • python制作电话号码归属地查询工具;
c29ca22ddd8b6c3749caaf2253afc591.png

后台回复关键词:自动化  即可获得 !!!

1bb17854a394a52859fe4395fc4f5d01.png

60737c5fa76d20840a28d2e85fea181d.gif

321827fc812e67ec34110f5c1b7da7f3.pngfb2502f649e33f4bcc12d968edb41b7b.png

db523ed8579f8685f611b487a409056f.gif

下面这本书限时300积分兑换哦

也可参加当当活动每满100减50

感谢北京大学出版社的大力支持

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英媒:人工智能终于接近人类智能了吗?

文章来源:金融时报作者:John Thornhill图片来源:网络编辑:江上波摘要:GPT-3被誉为人工智能领域的重大突破,有人认为它甚至显示出初步意识迹象,另一些人则指出GPT-3存在可笑的缺陷。它可以大量炮…

大创中期报告怎么写_课题研究中期报告怎么写?这篇范文很说的很详细

中期报告一般要求1.课题简介:课题由来、课题界定、研究目标、课题研究内容。2.研究情况:按时间顺序或内容板块有条理地说明研究工作的开展情况;有详有略、有主有次地陈述研究过程中做了什么、怎么做的。3.阶段成果:客观地阐明本课…

vba九九乘法表代码_VBA代码模块化--数据透视表

本周工作中,用到了数据透视表的操作,这里汇总一下,学习途径来自网络,学习成果我也乐于分享一二~,代码整理为模块,供大家举一反三,可以套用。① 创建数据透视表,及基本设置先展示数据…

IoT 、5G与边缘计算将会擦出怎样的火花?

来源:半导体行业观察边缘计算是数字世界中最令人兴奋的新概念之一。利用占用空间很少的微型数据中心网络,边缘计算使系统能够实时收集并分析重要数据,而不会增加现有基础设施的负担。在物联网系统中,通常以端到端的方式&#xff0…

“嫦娥上月球挖土”!打破尘封44年的人类历史,中国航天实现“五个首次”...

资料来源:人民网、中国新闻网、智东西等物联网智库 整理发布转载请注明来源和出处3!2!1!点火!随着一声声振奋人心的倒计时,北京时间11月24日4时30分,搭载嫦娥五号月球探测器的长征五号遥五运载火…

就php干活,php可以做什么?,懂得这些技巧就够了

PHP,是英文超文本预处理语言Hypertext Preprocessor的缩写。PHP 是一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,被广泛地运用。工具/材料电脑PHP操作方法011、运行在服务器端&…

世界上有没有无法破解的密码?揭秘量子通信 | 图图是道

来源:文章2020年11月23日发表于《中国日报》的微信公众号 图图是道科学顾问 / 中国科学技术大学副教授 袁岚峰监制 / 柯荣谊 联合监制 / 邢志刚 统筹 / 张若琼总策划 / 王晓莹 主笔 / 张周项 绘制 / 吴洋未来智能实验室的主要工作包括:建立AI智能…

从源码的角度再看 React JS 中的 setState

在这一篇文章中,我们从源码的角度再次理解下 setState 的更新机制,供深入研究学习之用。 在上一篇手记「深入理解 React JS 中的 setState」中,我们简单地理解了 React 中 setState “诡异”表现的原因。 源码的部分为了保证格式显示正常就截…

科普|深度解析5G与未来天线技术

来源:电子万花筒过去二十年,我们见证了移动通信从1G到4G LTE的转变。在这期间,通信的关键技术在发生变化,处理的信息量成倍增长。而天线,是实现这一跨越式提升不可或缺的组件。按照业界的定义,天线是一种变…

平行进化论再添证据 牙形刺远隔千里却发育模式相同

来源:科技日报记者:聂翠蓉平行进化观点认为,具有共同祖先的有机体即使彼此被分隔在相距千里的不同地域,也会以同样的方式进化。据物理学家组织网11月23日报道,德国爱尔兰根-纽伦堡大学和加拿大卡尔加里大学的古生物学家…

word光标一直闪动_6个一分钟就能学会的Word实用小技巧,你会几个?【Word教程】...

点击图片 1元抢购 Excel、Word、PPT全套课程你用word有几年了?一年、两年、三年......甚至更久?我相信你应该也是曾受到Word折磨的人吧!为什么?因为曾有很多人都不知道Word的一些小技巧,因此工作上浪费了不少时间。于…

timewait php,timewait是什么意思

一、IME_WAIT的意思是结束了这次连接。二、以tcp中time_wait状态为例如下:1、简单来说:time_wait状态是四次挥手中server向client发送FIN终止连接后进入的状态。2、从上图能够看到time_wait状态存在于client收到serverFin并返回ack包时的状态 &#xff0…

DARPA新局长维多利亚·科尔曼展望未来发展

来源:空天防务观察2020年11月20日,美空军协会《空军杂志》网站报道称,在入主美国防部国防高级研究计划局(DARPA)之前,新任局长维多利亚科尔曼(Victoria Coleman)大多数职业生涯都在五…

死磕JDK源码之String

String本质是对char数组的封装 Serializable接口 实现Serializable接口的类可以被序列化 Comparable接口 实现Comparable接口的类可以支持排序,需要重写的compareTo方法返回两个字符串中第一个不同的字符的ASCII码差值 CharSequence接口 多态,String、St…

一个神奇的测试_这4个在线黑科技工具拥有神奇的魔法,值得收藏!

本期神器妹分享4个超实用在线黑科技工具,其典型特点就是无需安装任何软件,打开网址就可以使用,另外就是个个都有其独到之处,用起来也很爽。下面来详细介绍这4个工具:2.万能命令这是一个神奇的在线工具效率平台&#xf…

量子纠缠背后的故事(廿五):深藏幕后的神秘力量

来源:程鹗科学网博客。链接地址:http://blog.sciencenet.cn/blog-3299525-1259740.html 还只有四五岁时,爱因斯坦有次生病,父亲给了他一个指南针玩耍。小小的爱因斯坦立刻着了迷。成年后,他多次回顾那次经历&#xff0…

vuerouter传参方式_VUE Router学习原理(一)

点击蓝字 关注我们Vue Router一. 安装二. 导入三. 说明四. 使用4.1 静态页面跳转4.2 动态页面跳转4.3 子路由4.4 通过程序传参4.5 同时(同级)展示多个视图4.6 导航钩子壹安装shellcnpm i vue-router -S贰导入jsimport Vue from vue;import VueRouter from vue-router;Vue.use(V…

php为图片添加渐变背景,HTML_CSS实例:通过定义渐变边框给图片加阴影,一般我们可以使用背景图的方 - phpStudy...

CSS实例:通过定义渐变边框给图片加阴影一般我们可以使用背景图的方式给图片添加阴影,但对于不固定尺寸的图片如何实现呢?我们可以采取“视觉欺骗大法”——定义渐变边框来实现代码:body {background:#2e334d;}img {border:none;}a.pic-shadow…

Nature:新聘“诺奖级泰斗”研究揭示大脑中执行不同认知功能环路之间的协同作用

| 中科院神经所官网报道大脑的一个核心功能是创造和保留外部世界的内在表征并指导行为,记忆(Memory)一词指的就是这种 "保留"。传统来说,人们认为记忆包括三个主要过程:编码(Encoding&#xff09…

Java基础11-封装(思想、访问权限、this、构造方法)

一、什么是封装呢? 封装是面向对象的三大特征之一。 隐藏对象的属性和实现细节,仅对外提供公共的访问方式。 ①封装就是将面对对象的状态和行为看成是一个整体,将二者存放在一个独立的模块中,比如说类 ②封装也是信息隐藏&#xf…