java获取word书签表格数据_Python读取word文档里面的表格数据

974d61de5021c5bdae2e07212d32fac7.png更多精彩,请点击上方蓝字关注我们!

我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel。前两者存储的是非结构化数据,excel存储的是结构化数据。从事数据统计或分析的工作或多或少都会从excel获取结构化数据。让结构化数据变为非结构化数据,较为容易。但是让非结构化数据变为结构化数据相对较难,数据科学其实大部分前期工作都是让非结构化数据变为结构化数据。我们来看看如何将word文档的表格数据转化为excel数据。如有word表格数据

f107e77167c038e45dd4f550f4a2fcb3.png

读取word文档,读取所有表格数据

a6c266539d813b65768898d9b3cf49af.png

这里获取第8个表格数据

获取变量名

e0229a4fc56e0c7e9e2fdaa4c26f9699.png

['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']

获取表格内结构化数据

cc14d1cecd1a0a55c2c21b1a827e7b19.png

转化为数据集:

6c49bdda9201728d0a8ef11a6f40bdc8.png

ae50721c20ff36b210090a9a797c3bf6.png

30765b437d708cbca278164b41ab07af.png

7269a35b23ac4d1c590ea04b1eb5d90a.png

188debcb6ca1a0d614c095eb65e55282.png

808ae7f4d37ac5ee4635366a9f12d52c.png

源代码:

# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename)    tables = document.tables         table = tables[7]# 获取变量名varname = []for i in range(len(table.columns)):     varname.append(table.cell(0,i).text)print(varname)# 获取表格数据data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)):         data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf = pd.DataFrame(arr2)# 给数据集赋予变量名df.columns = varname# 导出数据df.to_excel('D:/myexcel.xlsx', index=False)

运用此种方法,当我们遇到很多word当中的表格数据,难以做统计分析的时候,我们可以运用次种方法变为我们想要的数据结构,然后进行分析。

9d95ad46417e59e37b22010a990b8460.pngEND

12383c58b863ccf48a1ab89d2bf6aaea.png

碧茂课堂精彩课程推荐:

1.Cloudera数据分析课;

2.Spark和Hadoop开发员培训;

3.大数据机器学习之推荐系统;

4.Python数据分析与机器学习实战;

328db6a915dfac6a64b746b18acc2631.png

详情请关注我们公众号:碧茂大数据-课程产品-碧茂课堂

现在注册互动得海量学币,大量精品课程免费送!

82fd53cb40e244ada645a4f91913ba17.png

关注最新行业动态,

加群进行技术交流!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/340718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

abb智能控制系统_ABB助力国网冀北电力打造虚拟电厂

近日,ABB为国网冀北电力有限公司定制了智能配电计量与协调控制解决方案,对其虚拟电厂进行远程电能管理,实现高峰调节和负载转移,提高电力系统效率,保持供电稳定性。虚拟电厂是通过分布式电力管理系统将电网中发电端(尤…

通过通用数据访问扩展AWS生态系统

Amazon Web Services(AWS)可帮助组织托管和管理其数据流程,例如构建数据可视化和执行ETL任务。 在CData,我们可以轻松地将AWS Services与异构业务应用程序和分布式数据存储连接起来,以最终帮助企业对其数据进行更全面的…

android官方文档中文版_Now in Android:01 - 如何掌握最新的 Android 技术?

每隔几天我都会通过 Android Developers 的油管官方频道,来了解一下最近 Android 发布了哪些有趣的新技术,最近发现官方推出了一个新的系列视频叫做:Now in Android,目前更新了 4 期,我觉得这个系列蛮有趣的&#xff0…

c++ 反射_固体火箭发动机黏接壳体超声C扫描检测系统研制与应用

某固体火箭发动机燃烧室采用壳体/绝热层/包覆层/推进剂的多界面结构形式,其中绝热层采用玻璃纤维缠绕成型后与钢质旋压壳体胶接而成。在胶接过程中,若存在壳体内部多余物清理不干净、绝热层与壳体配合不严、胶层内部气体未排净等情况,黏接层易…

java scala_经过几天的Scala回归Java的10个最烦人的事情

java scala因此,我正在尝试使用Scala,因为我想编写一个解析器,而Scala Parsers API似乎非常合适。 毕竟,我可以在Scala中实现解析器并将其包装在Java接口后面,因此除了附加的运行时依赖关系之外,应该不存在…

python区域找图命令_python读取图片任意范围区域

使用python进行图片处理,现在需要读出图片的任意一块区域,并将其转化为一维数组,方便后续卷积操作的使用。 下面使用两种方法进行处理: convert 函数 from PIL import Image import numpy as np import matplotlib.pyplot as plt …

[MEGA DEAL] Ultimate SQL Bootcamp认证捆绑包(98%)

像Pro一样管理任务和数据库,提供有关SQL Lite,Microsoft SQL,MySQL,PostgreSQL,Rest API和Oracle SQL的6门课程 嘿,怪胎, 本周,在我们的JCG Deals商店 ,我们提供了另一…

jersey spring_教程–带有Jersey和Spring的Java REST API设计和实现

jersey spring想要在Java中使用REST? 然后您来对地方了,因为在博客文章中,我将向您介绍如何“美丽”地设计REST API,以及如何使用Jersey框架在Java中实现它。 本教程中开发的RESTful API将演示针对存储在MySql数据库中的播客资源的…

html5 css svg,6款基于SVG的HTML5CSS3应用和动画

1、CSS3/SVG质感背景小图标 镂空效果图标按钮今天我们来分享一款用CSS3和SVG实现的质感背景小图标,鼠标滑过图标时出现镂空的效果,并且有质感背景的描边,效果非常不错。2、HTML5 SVG Tab滑块菜单 非常酷的Tab菜单之前我们分享过很多HTML5/CSS…

python 矩阵合并_numpy 的矩阵合并与分割

aiblog4.jpg 这次分享下numpy中矩阵的合并与分割,希望能帮助到大家。 在此附上视频链接 一、引入numpy第三方库 首先我们引入numpy这个第三方库,如果有同学没安装numpy可在命令行中pip install numpy进行安装(Mac用户 sudo pip3 install numpy) import numpy as np …

rto净化效率计算公式_你了解废气处理设备RTO蓄热式热氧化炉的工作原理么?

RTO蓄热式热氧化炉的净化效果以及稳定性都是相当不错的,但是由于其一次性投入成本高,许多企业都选择了放弃。但是科盈小编想要说的是从其99%的净化效果、换热系统、新型蜂窝技术以及日后的运行成本费用来看,这个费用就显得很可观了…

Selenium 4相对定位器如何改变您的测试方式?

网页可以包含许多Web元素或GUI元素,例如单选按钮,文本框,下拉菜单,输入等。Selenium自动化测试中的Web定位器用于对页面的Web元素执行不同的操作。 毫不奇怪,作为新的Selenium用户,我们要学习的第一件事是S…

电商 php 颜色数据怎么敲?_来客说电商|电商系统开发注意事项

来客B2B2C多用户电商系统打造支持自营招商入驻经营模式的电商平台(类似京东、天猫的经营模式),创新模块化设计整合运营商,供货商,批发商,入驻商,分销商,门店于一体,各个模…

朗读评价语言集锦_英语老师批改作业时的精彩评语集锦,超实用!

01你的作业评语,学生看得懂吗?评语是写给学生看的,所以一方面评语要使用学生能看得懂的英语来写,所使用的词汇和语法不能过高或过低于学生的现有水平,要切合学生的实际情况,符合学生的个性心理发展需要&…

u盘安装linux 提示no such device_Linux 网络基础设计

误删网卡配置文件解决思路本回复案例仅在Centos 7如试验成功其它系统无从考究,仅供参考请在root用户模式下配置获得设备名称DEVICE常见使用ifconfig,如果尚未安装请先安装如果只能找到Io和virbrN(Nnumber),请使用ifconfig -a复制名字(红线处,要以你机器的为准!)创建配置文件tou…

中兴c600olt数据配置_中兴天机Axon 10 Pro再掀波澜,4G版3199元起,5G版还有悬念?...

自MWC 2019大会多家手机厂商纷纷亮出自家的5G手机后,5G时代就已经从想象变为现实。不仅仅是手机终端,关于5G技术、基站建设也早就提上日程。技术的车轮永远比我们的想象快一步,当大家还在议论5G应用场景时,中兴天机Axon 10 Pro 4G…

学计算机二级分数,2020年9月计算机二级考试成绩可以查了 多少分及格

2020年9月份计算机二级考试成绩查询入口已经开通,考生可以在中国教育考试网上进行查询。计算机二级考试满分100分,60分及格。计算机二级成绩查询入口及合格标准全国计算机二级考试成绩查询唯一入口:中国教育考试网全国计算机二级考试实行百分…

怎么能把看不清的照片给看清_远视怎么矫正?需要佩戴眼镜吗?

昆明眼科医院,我们都知道眼睛一旦近视了,世界就变得一片模糊,而为了重新看清东西,我们不得不戴上近视眼镜。 那么反过来,远视需要戴眼镜吗?正常情况,我们出生时眼睛都处于一个远视状态,随着年龄…

cout不明确什么意思_劈腿什么意思?原来出轨和劈腿不一样!原来如此!

我们在生活中经常说,出轨和劈腿。然而,这两个词之间有一定的标准。劈腿原意是体操术语,体操运动员可以做一些困难的动作,如分裂、垂直分裂、水平分裂和半分裂。其中劈腿也被称为分裂,这意味着两条腿被最大程度地分开。…

hbase 生成文件_HBase:为客户行为生成搜索点击事件统计信息

hbase 生成文件在本文中,我们将探索HBase来存储客户搜索点击事件数据,并利用其基于搜索查询字符串和构面过滤器点击来获取客户行为信息。 我们将介绍使用MiniHBaseCluster,HBase Schema设计,使用HBaseSink与Flume集成以存储JSON数…