python excel 转json_Python办公自动化| word 表格转excel

之前写过一篇 Python办公自动化 | 批量word报告生成工具 ,有小伙伴提出了逆向需求,即:从批量word中获取内容并写入excel,需求背景是汇总一些材料,举例:实习鉴定表、个人简历、档案等。

实际需求是这样的,现在有如下格式的若干word文档,需要录入标黄信息到excel,手工录入效率太低了,能不能用python实现呢?答案是肯定的

69705dbbf213fac35bbfaaa60a0b618a.png

安装 docx

pip install pothon-docx

导入 docx

from docx import Document

读取 word 文件

doc=Document('模板.docx')

读取表格

tb=doc.tables

读取行

rows=tb[0].rows

读取列

cols=rows[0].cells

读取单元格

cell=cols[0]
text=cell.text

单个文件内容获取

docx 读取word中的表格时会按照最大行和最大列对表格取消合并单元格,比如样例文件,最大行数是5,最大列数是8,他就给扩展成5 * 8的表格,而且数据自动向右填充。分析样例文件结果,需要获取的数据在前三行(起始编号0),第一行是获取1、3、5、7列值(起始编号0),第二行是获取3、5、7列值,第3行是获取3、7列值 获取单个文件3行标黄文字程序如下:

    row = []
    # 获取第一行数据
    for i in range(1,8,2):
        cell = tb.cell(0, i)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)
    # 获取第二行数据
    for j in range(3,8,2):
        cell = tb.cell(1, j)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)
    # 获取第三行数据
    for k in range(3,8,4):
        cell = tb.cell(2, k)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)

多个文件内容获取

单个文件内容获取了,批量就好说了,只要传入一个文件夹,遍历文件夹获取想要的文件就可以了,通用代码示例如下:

path = input('请输入文件夹路径: ')
files = os.listdir(path)
docx_list = []
for f in files:
    if os.path.splitext(f)[1] == '.docx':
        docx_list.append(path + '\\' + f)
    else:
        pass

通过如上代码获取了文件夹下所有的docx文件,采用list嵌套list的方法批量获取内容

mat = []
for n in range(len(docx_list)):
    doc=Document(docx_list[n])
    tb=doc.tables[0]
    # print(len(tb.rows), len(tb.columns))  # 行数、列数
    row = []
    # 获取第一行数据
    for i in range(1,8,2):
        cell = tb.cell(0, i)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)
    # 获取第二行数据
    for j in range(3,8,2):
        cell = tb.cell(1, j)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)
    # 获取第三行数据
    for k in range(3,8,4):
        cell = tb.cell(2, k)
        txt = cell.text if cell.text != '' else ' '  # 无内容用空格占位
        row.append(txt)
    mat.append(row)

写入 excel

由于pandas太庞大了,杀鸡焉用牛刀,此处采用xlwt写入excel。

  • 创建工作簿

workbook = xlwt.Workbook(encoding = 'utf-8')

  • 添加sheet(支持覆盖写入)

xlsheet = workbook.add_sheet("Sheet1",cell_overwrite_ok=True)

  • 添加表头
table_head = ['xNAME','xSEX','xDANG','xZHI','xYUNA','xBAN','xHAO','xTIME','xPLACE']
headlen = len(table_head)
for i in range(headlen):
    xlsheet.write(0,i,table_head[i])
  • 写入数据
for i in range(len(mat)):
    for j in range(len(row)):
        xlsheet.write(i+1,j,mat[i][j])
  • 保存工作簿 xlwt 主要是支持 .xls文件格式

workbook.save('学生实习鉴定表.xls')

执行程序便得到如下汇总内容:

f6bfa0fd6d5a16f9b84a700467bc5e4f.png

真香

公众号回复 word2table 获取完整代码及示例文件,回复 pkbk 添加我为好友

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python在图中画一条垂直线(matplotlib)

matplotlib.pyplot.axvline https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.axvline.html?highlightaxvline#matplotlib.pyplot.axvline 用法: plt.axvline(x, colorr, linestyle--, labelxxx) plt.legend()

坦途与波折:我们需要什么样的人工智能?

来源:资本实验室历史车轮滚滚向前,如今我们正在进入人工智能时代。其中的坦途足以让我们乐观和振奋,其中的波折也可能会让我们不安或担忧。面对未来,我们需要坚持三个基本要点:效率、环保与福祉。1.人工智能与传统产业…

python画一条水平直线(matplotlib)

matplotlib.pyplot.axhline https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.axhline.html 用法: plt.axhline(0.06, colorr, linestyle--, labelxxx) plt.legend(locupper left)

sql数字转换为字符_Python|图片转换为字符画^_^

我们很清楚什么是图片,无外乎png、jpg等格式的文件,例如这个?但什么是字符画呢?先看一下官方介绍:字符画,一种由字母、标点、汉字或其他字符组成的图画。简单的字符画是利用字符的形状代替图画的线条来构成简单的人物…

全球机器人产业趋势及特征

来源:创新研究当前,全球机器人市场规模持续扩大,工业机器人市场增速回落,服务、特种机器人增速稳定。技术创新围绕仿生结构、人工智能和人机协作不断深入,产品在教育陪护、医疗康复、危险环境等领域的应用持续拓展&…

python支持向量机_支持向量机(SVM)Python实现

什么是支持向量机? “支持向量机”(SVM)是一种监督机器学习算法,可用于分类或回归挑战。然而,它主要用于分类问题。在这个算法中,我们将每一个数据项作为一个点在n维空间中(其中n是你拥有的特征数)作为一个点,每一个特征值都是一…

AR智能提升工业效率的4大场景与应用实践!

来源:北京物联网智能技术应用协会导 读 ( 文/ e-works整理 )德国学者提出“工业4.0”的概念,即以智能制造为主导的第四次工业革命,或革命性的生产方法。主要围绕两大主题,一是“智能工厂”,二是“智能生产”&#xff0…

手机进销存系统/供应链管理系统

花了将近两个月的时间学习了一个企业级进销存项目,已经结束了两周多,现在终于有时间来对这个项目的学习做个总结了! 一、首先介绍下这个项目 (注:本人目前大三,专业为信息管理,与编程沾边不多。而我对编程很…

如何评价马云和马斯克在世界人工智能大会的对话?

来源:刘锋的未来课堂马云和马斯克在世界人工智能大会的对话,虽然风轻云淡,天马行空,但两个人其实是针锋相对的,马云的观点是认为人工智能还是人类的工具,为人类的未来提供服务,马斯克继续保持他…

linux 检测mysql链接_MySQL笔记

#忘记原始密码1、修改 /etc/my.cnf,在 [mysqld] 小节下添加一行:skip-grant-tables12、重启mysql:service restart stop3、刷新权限:flush privileges;4、修改密码:alter user rootlocalhost identified by Kgj2019;若…

matplotlib设置多个图例横向水平放置

一般多个图例都是竖向放置 如果想要多个图例横向放置,设置plt.legend的ncol参数,ncol参数表示将图例分为多少列,以两个图例横向放置为例: plt.legend(ncol2)

内存对齐分配策略(含位域模式)

1:内存对齐定义: 现在使用的计算机中内存空间都是按照字节划分的,从理论上讲似乎对任何类型的变量的访问可以从任何地址开始,但是实际上计算机系统对于基本数据类型在内存 中的存放位置都有限制,要求这…

科技部发布新一批国家新一代人工智能开放创新平台

来源:科技部8月29日上午,在上海举办的2019世界人工智能大会开幕式上,科技部李萌副部长发布了新启动建设的十家国家新一代人工智能开放创新平台。分别是:依托上海依图网络科技有限公司建设视觉计算国家新一代人工智能开放创新平台&…

开发里程碑计划_里程碑——让你轻松控制项目进度

对于项目结果的最好控制就是控制项目开发的过程,也就是控制项目开发过程中的几个关键节点——项目的里程碑事件。通过对里程碑事件的控制用于评估项目各阶段工作进展的有效性,以及及时的明确开发过程中存在的风险过程。我们在做项目开发计划的时候&#…

SQL Server数据库大型应用解决方案总结【转】

【IT168 技术】随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天百万级甚至上亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。 一、负载均衡技术 负载均衡集…

Python正在吞噬世界

来源: AI前线AI 前线导读:2018 到 2019 年,所有编程语言的流行度都在下滑,除了 Python。Python 为什么会变得越来越火?本文梳理了 Python 的发展史,试图揭示背后的秘密。1994 年末,一群来自美国…

登录python自动化_Appium+Python实现自动化登录

#AppiumPython实现自动化测试 Appium简介 官方的概述为: Appium is an open source test automation framework for use with native, hybrid and mobile web apps. It drives iOS, Android, and Windows apps using the WebDriver protocol. Appium是一个开源的测试…

lvalue-xvalue-prvalue

• iM: has identity and cannot be moved from • im: has identity and can be moved from (e.g. the result of casting an lvalue to a rvalue reference) • Im: does not have identity and can be moved from 转载于:https://www.cnblogs.com/Searchor/p/5604736.html

城市仿真为何成为大势所趋?

来源:智慧城市联合实验室不知从何时起,人们开始从城市的角度构想,未来可以建设一个虚拟城市,来映射真实城市的运行,再进一步管理真实城市的运行。现在,这种构想已经初步实现……(内附《城市环境…

linux网络配置_linux复制和网络配置的小注意事项

centos7,vbox复制出来的虚拟机无法ping通。其实这是vbox低版本没有解决的一个小问题,复制过去,主机的mac重新生成了(复制时候一定要选这个选项),但是配置文件的mac还是被复制的主机配置,网上搜索很多方案各种改,其实只…