python真的可以减少工作强度_用Python写几行代码,一分钟搞定一天工作量,同事直呼:好家伙!...

前几天有一个读者说最近要整理几千份文件,头都要整秃了,不知道能不能用Python解决,我们来看一下,你也可以思考一下。由于涉及文件私密所以具体内容已做脱敏处理。

大概是这样,一个文件夹下有多份会议通知信息(本文以 7 份文件为例)

213868512_2_20210124020117569

每一份通知打开格式基本类似,如下所示👇

213868512_3_20210124020117679

现在需要将每份会议文档中的 学习时间、学习内容、学习形式、主持人 四项关键信息提取出来,整理到 Excel 表格中:

213868512_4_20210124020117851

在他真实需求中,会议通知四年积累下来有快 1000 份(四年开了这么多次会也是很厉害...),用人力挨个打开文件并录到 Excel 中工作量实在太大。

好家伙,这种重复的无聊工作, 不就是一份非常适合交给 Python 的自动化工作吗?我不允许我的粉丝还不会!

下面我们来看看如何用Python解决这个问题,主要将涉及:openpyxl 写入 Excel 文件

python-docx 读取 Word 文件

glob 批量获取文件路径

为了简化上面的需求,本文中需要获取的会议通知文件一共 7 个,分别命名为 会议通知1.docx 会议通知2.docx... 会议通知7.docx,存放在 Notice 文件夹下。输出的目标 Excel 文件命名为 Meeting_temp.xlsx

基本逻辑

写代码之前都先明确完整的问题需要分为几个小步骤实现。从需求中我们大概可以将代码分为以下几步:“获取会议通知 Notice 文件夹下的所有文件;

解析每一份 Word 文件,获取需要的四个信息,输出到 Excel 中;

保存 Excel 文件”

有了逻辑就有了写代码的思路了。第 1 步可以由 glob 库完成,后面两步就是操作 Word 的 python-docx 库和操作 Excel 的 openpyxl 库的交互协作了。

这两个库我们都有说过,如果你不熟悉,一定要先阅读下面的文章!

代码实现

首先导入需要的库:

from docx import Document

from openpyxl import load_workbook

import glob

将模板 Excel 读取进程序:path  = r'C:\Users\xxx' # 路径为会议通知文件夹和 Excel 模板所在的位置,可按实际情况更改

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

写任何批处理的代码之前都建议先写一下单次操作的代码,因此我们先完成对 会议通知 1.docx 文件的解析,确保无误。现在对于文档的结构和关键信息的位置尚不明确,可以先将 Word 以段落 Paragraph 为单位输出观察:

wordfile = Document(path + r'\Notice\会议通知 1.docx')

for paragraph in wordfile.paragraphs:

print(paragraph)

213868512_5_20210124020117991

文件的文字排布脉络比较清晰,基本是一句话对应一个段落,而需要的信息可以简单通过判断每句话(每段话)前几个字而明确:for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

对于学习内容的获取比较特殊,不像其他三个信息,都在一句话中,且关键字就为前几个字:

213868512_6_20210124020118163

可以看到,“学习内容” 四个字和真正包含的内容分散在不同的句子中.这里简单用一个策略:“

建立一个空列表存放,然后遍历每一段判断,如果一个字符为数字且第二个字符为中文顿号 “、” 就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可:”

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

完成了解析 Word 文件之后,就需要把内容输出的 Excel 文件中了。

简单来说,就是将上面代码获取到的几个元素组合成一个列表,通过 sheet.append(list) 的方法写入 Excel 文件中:number = 0 # 全局中设置一个变量用于计数,做为序号输出

wordfile = Document(path + r'\Notice\会议通知 1.docx')

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

单个文件解析完,用 glob 改完获取文件夹下全部文件,建立循环逐个解析就能完成本需求,当然最后记得保存 Excel 文件。

完整代码如下👇

from docx import Document

from openpyxl import load_workbook

import glob

path  = r'C:\Users\xxx'

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

number = 0

for file in glob.glob(path + r'\Notice\*.docx'):

wordfile = Document(file)

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

workbook.save(path + r'\Meeting_notice.xlsx')

213868512_7_20210124020118272

核心也不过三十行代码,总共不过三秒就搞定了!213868512_8_20210124020118633

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/411591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jmeter之逻辑控制器(Logic Controller)

一、简单控制器(Simple Controller): 作用:这是Jmeter里最简单的一个控制器,它可以让我们组织我们的采样器和其它的逻辑控制器(分组功能),提供一个块的结构和控制,并不具…

python需要掌握的词汇量_北大保安英语词汇量1.5万,会用Python编程,孟母三迁真有道理...

这就是良好学习环境的重要性啊,不然你以为“孟母三迁”是咋来的?人家孟母为了孩子有个好的学习环境,宁愿搬三次家。而这些保安小哥一步到位,直接就进入了无数人梦寐以求的最高学府,想不牛都不行啊。01、北大是最高学府…

Visual Studio Team System 2008 安装失败

微软的东西 看样子也没怎么测试就发布了。。。 [10/27/08,23:05:56] Microsoft .NET Framework 3.5: [2] Error code 1603 for this component means "安装时发生严重错误"[10/27/08,23:05:58] Microsoft .NET Framework 3.5: [2] Setup Failed on component Microso…

【题解】序列

题目描述 一个长度为k的整数序列b1,b2,...,bk(1≤b1≤b2≤...≤bk≤N)称为“好序列”当且仅当后一个数是前一个数的倍数,即bi1是bi的倍数对任意的i(1≤i≤k-1)成立。 给定N和k&#…

Struts2 文件上传

JSP界面: 必须把表单的enctype属性改为 multipart/form-data才能上传 Action: 程序如果多人使用,必须保证文件名是唯一,文件名相同会覆盖掉原来的文件,所以使用时间作为文件名。可以把生成的文件名直接存入数据库中&am…

看新闻的时间用的太多了

也不知从什么时候开始习惯每天看新闻,好像有五六年的习惯了,只是现在每天看新闻的时间用的太多了(每天都至少5-6小时),而且越来越严重了,除了看新闻,基本只剩下工作和睡觉时间了.cctv2,央视新闻频道,第一财经每天必看,新浪,搜狐,凤凰网,时寒冰,牛刀等等,从时事,到经济,到体育,到…

第五章学习小结

第5章学习树和二叉树 树 1.树的结构定义是一个递归定义:树的定义中又用到树的定义 2.结点的度即为结点的分支数,树的度是树内各结点度的最大值,二叉树每个结点至多只有两颗子树(即二叉树中不存在度大于2的结点) 二叉树…

[html] 浏览器内多个标签页之间的通信方式有哪些?

[html] 浏览器内多个标签页之间的通信方式有哪些? 个人简介 我是歌谣,欢迎和大家一起交流前后端知识。放弃很容易, 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣一起通关前端面试题

java 优酷视频缩略图_java获取优酷等视频缩略图

类型:Android平台大小:6.8M语言:中文 评分:7.2标签:立即下载想获取优酷等视频缩略图,在网上没有找到满意的资料,参考了huangdijia的PHP版工具一些思路,写了下面的JAVA版代码。。其实…

java篇 之 变量存放位置

一:在方法中声明的变量,即该变量是局部变量,每当程序调用方法时,系统都会为该方法建立一个方法栈,其所在方法中声明的变量就放在方法栈中,当方法结束系统会释放方法栈,其对应在该方法中声明的变…

import json java_JAVA的JSON数据包装-博客园老牛大讲

标签:一、什么是json呢?{"id":"1","username":"老牛大讲堂","password":"123"}这就是json数据。用来和页面(HTMl)进行通信的。二、通信为什么用json呢?没有为啥,因为…

砂.随笔.二十.微笑

左脑和右脑在争吵 左手和右手在撕扯 左脚和右脚走向两端 撕扯着神经 我想要疯狂地尖叫 但熟悉的人和面孔在对着我微笑 那么弯起嘴角吧 那么眯起眼角吧 那么就这样吧 就只能是这样了 我的尖叫和痛哭掩盖在微笑的面具下慢慢窒息 这样或许是最好的 谁都不知道你们曾经到来过 那么就…

electron-关闭之前,弹出提示窗

tips:写的时候,如果不在弹窗之前调用一次阻止默认事件,窗口就会直接关闭; 对话框dialog 在主进程中调用,const {dialog} require(electron); 传送门:electron dialog对话框 转载于:https://www.cnblogs.com/huangmin1…

进程(二)

import osimport timefrom multiprocessing import Processdef func(args,args2): print(args,args2) time.sleep(3) print(子进程 :, os.getpid()) print(子进程的父进程 :, os.getppid()) print(12345)if __name__ __main__: p Process(targetfunc,args(…

uushare新增类似美味(del.icio.us)的书签服务

书签是用于收藏网址的一种工具(又称为网络收藏夹),通过它你可以将常访问的网站或平时发现感兴趣的网址收藏起来。 跟浏览器中的收藏夹不同,书签的优点是可以随时随地收藏大量的网址并且便于管理和寻找,同时不用担心因系…

HttpClient系列~StringContent与FormUrlEncodedContent

知识点 本文是一个很另类的文章,在项目中用的比较少,但如果项目中真的出现了这种情况,我们也需要知道如何去解决,对于知识点StringContent和FormUrlEncodedContent我们应该了解的多一点,FormUrlEncodedContent是以键/值…

Javascript乱弹设计模式系列(1) - 观察者模式(Observer)

前言 博客园谈设计模式的文章很多,我也受益匪浅,包括TerryLee、吕震宇等等的.NET设计模式系列文章,强烈推荐。对于我,擅长于前台代码的开发,对于设计模式也有一定的了解,于是我想结合Javascript来设计前台方…

【JS】JS中数值型字符串相加变成拼接字符串的解决方法

一、问题描述 数值型的字符串,通过、 运算符连接后,变成了字符串拼接,而不是数值计算。 先上图: 二、错误原因 这是由于JS中、 运算符既是算术运算符,也是字符串的连接符> 的运算规则是:如果把数字与字符…

安卓JAVA调用lua_android中java与lua的相互调用

Android Studio Lua环境配置开发环境1. Android Studio 3.52. java sdk: 1.8.03.android sdk:28配置环境添加lua支持语法支持插件,打开android studio -> File -> Settings三方库选择参考文章:https://gameinstitute.qq.com/community/…

用ajax(vb.net) 实现dropdownlist二级无刷新联动~!

说说vb.net ajaxpro 实现dropdownlist二级无刷新联动~&#xff01;Code<div class"div_RSL"> <asp:DropDownList ID"DropDownList1" runat"server" DataSourceID"proID" DataTextField"proName"AutoPostBack"…