java获取word书签表格数据_Python读取word文档里面的表格数据

974d61de5021c5bdae2e07212d32fac7.png更多精彩,请点击上方蓝字关注我们!

我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel。前两者存储的是非结构化数据,excel存储的是结构化数据。从事数据统计或分析的工作或多或少都会从excel获取结构化数据。让结构化数据变为非结构化数据,较为容易。但是让非结构化数据变为结构化数据相对较难,数据科学其实大部分前期工作都是让非结构化数据变为结构化数据。我们来看看如何将word文档的表格数据转化为excel数据。如有word表格数据

f107e77167c038e45dd4f550f4a2fcb3.png

读取word文档,读取所有表格数据

a6c266539d813b65768898d9b3cf49af.png

这里获取第8个表格数据

获取变量名

e0229a4fc56e0c7e9e2fdaa4c26f9699.png

['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']

获取表格内结构化数据

cc14d1cecd1a0a55c2c21b1a827e7b19.png

转化为数据集:

6c49bdda9201728d0a8ef11a6f40bdc8.png

ae50721c20ff36b210090a9a797c3bf6.png

30765b437d708cbca278164b41ab07af.png

7269a35b23ac4d1c590ea04b1eb5d90a.png

188debcb6ca1a0d614c095eb65e55282.png

808ae7f4d37ac5ee4635366a9f12d52c.png

源代码:

# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename)    tables = document.tables         table = tables[7]# 获取变量名varname = []for i in range(len(table.columns)):     varname.append(table.cell(0,i).text)print(varname)# 获取表格数据data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)):         data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf = pd.DataFrame(arr2)# 给数据集赋予变量名df.columns = varname# 导出数据df.to_excel('D:/myexcel.xlsx', index=False)

运用此种方法,当我们遇到很多word当中的表格数据,难以做统计分析的时候,我们可以运用次种方法变为我们想要的数据结构,然后进行分析。

9d95ad46417e59e37b22010a990b8460.pngEND

12383c58b863ccf48a1ab89d2bf6aaea.png

碧茂课堂精彩课程推荐:

1.Cloudera数据分析课;

2.Spark和Hadoop开发员培训;

3.大数据机器学习之推荐系统;

4.Python数据分析与机器学习实战;

328db6a915dfac6a64b746b18acc2631.png

详情请关注我们公众号:碧茂大数据-课程产品-碧茂课堂

现在注册互动得海量学币,大量精品课程免费送!

82fd53cb40e244ada645a4f91913ba17.png

关注最新行业动态,

加群进行技术交流!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/340718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

函数指针使用场景和选择_在N + 1场景中使用@NamedEntityGraph更有选择地加载JPA实体...

函数指针使用场景和选择N 1问题是使用ORM解决方案时的常见问题。 当您将某些OneToMany关系的fetchType设置为lazy时,就会发生这种情况,以便仅在访问Set / List时才加载子实体。 假设我们有一个具有两个关系的Customer实体:每个客户的一组订单…

东师计算机应用基础在线作业,东师《计算机应用基础》15春在线作业1答案

《计算机应用基础》15 春在线作业 1 单选题 多选题 判断题一、单选题(共 25 道试题,共 62.5 分。 )1. 21、 1946 年 2 月,在美国诞生了世界上第一台计算机,它的名字叫:A. EDVACB. EDSACC. ENIACD. UNIVAC-1----------------选择:C…

abb智能控制系统_ABB助力国网冀北电力打造虚拟电厂

近日,ABB为国网冀北电力有限公司定制了智能配电计量与协调控制解决方案,对其虚拟电厂进行远程电能管理,实现高峰调节和负载转移,提高电力系统效率,保持供电稳定性。虚拟电厂是通过分布式电力管理系统将电网中发电端(尤…

通过通用数据访问扩展AWS生态系统

Amazon Web Services(AWS)可帮助组织托管和管理其数据流程,例如构建数据可视化和执行ETL任务。 在CData,我们可以轻松地将AWS Services与异构业务应用程序和分布式数据存储连接起来,以最终帮助企业对其数据进行更全面的…

android官方文档中文版_Now in Android:01 - 如何掌握最新的 Android 技术?

每隔几天我都会通过 Android Developers 的油管官方频道,来了解一下最近 Android 发布了哪些有趣的新技术,最近发现官方推出了一个新的系列视频叫做:Now in Android,目前更新了 4 期,我觉得这个系列蛮有趣的&#xff0…

mvc路由 html,asp.net-mvc – ASP.NET MVC路由从html页面开始

我正在使用IIS 6.我想我的问题是我不知道如何使用routes.MapRoute路由到一个非控制器.我有一个url,如example.com,我希望它为index.htm页面提供服务,而不是使用MVC.我该如何设定?在IIS中,我将index.htm作为我的起始文档,我的global.asax具有标准的“默认”路由,其中…

c++ 反射_固体火箭发动机黏接壳体超声C扫描检测系统研制与应用

某固体火箭发动机燃烧室采用壳体/绝热层/包覆层/推进剂的多界面结构形式,其中绝热层采用玻璃纤维缠绕成型后与钢质旋压壳体胶接而成。在胶接过程中,若存在壳体内部多余物清理不干净、绝热层与壳体配合不严、胶层内部气体未排净等情况,黏接层易…

java scala_经过几天的Scala回归Java的10个最烦人的事情

java scala因此,我正在尝试使用Scala,因为我想编写一个解析器,而Scala Parsers API似乎非常合适。 毕竟,我可以在Scala中实现解析器并将其包装在Java接口后面,因此除了附加的运行时依赖关系之外,应该不存在…

常用计算机网络技术缩写词和术语,网络技术缩写词和术语

常用计算机网络技术缩写词和术语LAN:Local Area Network 局域网WAN: Wide Area Network 广域网MAN: Metropolitan Area Network 城域网FM: Frequency Modulation 频率调制AM: Amplitude Modulation 振幅调制PM: Phase Modulation 相位调制FSK: Frequency-shift Keyi…

python区域找图命令_python读取图片任意范围区域

使用python进行图片处理,现在需要读出图片的任意一块区域,并将其转化为一维数组,方便后续卷积操作的使用。 下面使用两种方法进行处理: convert 函数 from PIL import Image import numpy as np import matplotlib.pyplot as plt …

通用计算机系统的工作方式,通用计算机操作系统典型体系结构综述

摘要:随着操作系统应用领域的扩大,以及操作系统硬件平台的多样化,操作系统的体系结构和开发方式都在不断更新,目前通用机上常见操作系统的体系结构有如下几种:模块组合结构、层次结构、虚拟机结构和微内核结构。本文引用地址:http…

[MEGA DEAL] Ultimate SQL Bootcamp认证捆绑包(98%)

像Pro一样管理任务和数据库,提供有关SQL Lite,Microsoft SQL,MySQL,PostgreSQL,Rest API和Oracle SQL的6门课程 嘿,怪胎, 本周,在我们的JCG Deals商店 ,我们提供了另一…

jersey spring_教程–带有Jersey和Spring的Java REST API设计和实现

jersey spring想要在Java中使用REST? 然后您来对地方了,因为在博客文章中,我将向您介绍如何“美丽”地设计REST API,以及如何使用Jersey框架在Java中实现它。 本教程中开发的RESTful API将演示针对存储在MySql数据库中的播客资源的…

html5 css svg,6款基于SVG的HTML5CSS3应用和动画

1、CSS3/SVG质感背景小图标 镂空效果图标按钮今天我们来分享一款用CSS3和SVG实现的质感背景小图标,鼠标滑过图标时出现镂空的效果,并且有质感背景的描边,效果非常不错。2、HTML5 SVG Tab滑块菜单 非常酷的Tab菜单之前我们分享过很多HTML5/CSS…

python 矩阵合并_numpy 的矩阵合并与分割

aiblog4.jpg 这次分享下numpy中矩阵的合并与分割,希望能帮助到大家。 在此附上视频链接 一、引入numpy第三方库 首先我们引入numpy这个第三方库,如果有同学没安装numpy可在命令行中pip install numpy进行安装(Mac用户 sudo pip3 install numpy) import numpy as np …

微型计算机技术怎么学,浅谈微型计算机技术课程的启发式教学

摘要:《微型计算机技术》是一门工程性很强的课程,内容涵盖丰富,软硬件结合,学习难度较大。本文从寻求问题出发到实际解决该问题的过程中培养学生的学习兴趣,从而获得学习的主动性。关键词:微型计算机技术 思…

rto净化效率计算公式_你了解废气处理设备RTO蓄热式热氧化炉的工作原理么?

RTO蓄热式热氧化炉的净化效果以及稳定性都是相当不错的,但是由于其一次性投入成本高,许多企业都选择了放弃。但是科盈小编想要说的是从其99%的净化效果、换热系统、新型蜂窝技术以及日后的运行成本费用来看,这个费用就显得很可观了…

Selenium 4相对定位器如何改变您的测试方式?

网页可以包含许多Web元素或GUI元素,例如单选按钮,文本框,下拉菜单,输入等。Selenium自动化测试中的Web定位器用于对页面的Web元素执行不同的操作。 毫不奇怪,作为新的Selenium用户,我们要学习的第一件事是S…

电商 php 颜色数据怎么敲?_来客说电商|电商系统开发注意事项

来客B2B2C多用户电商系统打造支持自营招商入驻经营模式的电商平台(类似京东、天猫的经营模式),创新模块化设计整合运营商,供货商,批发商,入驻商,分销商,门店于一体,各个模…

计算机网络名词解释-csma cda,计算机专业对口升学模拟题1资料.doc

精品文档精品文档PAGE精品文档第一部分计算机组装与维护一、单项选择题(每小题1分,共10分)1.下列关于微型放松计算机特点的描述中,错误的是()、体积小、重量轻、功耗低B、结构简单灵活、系统设计方便,适应性强C、可靠性高、但对使…