python真的可以减少工作强度_用Python写几行代码,一分钟搞定一天工作量,同事直呼:好家伙!...

前几天有一个读者说最近要整理几千份文件,头都要整秃了,不知道能不能用Python解决,我们来看一下,你也可以思考一下。由于涉及文件私密所以具体内容已做脱敏处理。

大概是这样,一个文件夹下有多份会议通知信息(本文以 7 份文件为例)

213868512_2_20210124020117569

每一份通知打开格式基本类似,如下所示👇

213868512_3_20210124020117679

现在需要将每份会议文档中的 学习时间、学习内容、学习形式、主持人 四项关键信息提取出来,整理到 Excel 表格中:

213868512_4_20210124020117851

在他真实需求中,会议通知四年积累下来有快 1000 份(四年开了这么多次会也是很厉害...),用人力挨个打开文件并录到 Excel 中工作量实在太大。

好家伙,这种重复的无聊工作, 不就是一份非常适合交给 Python 的自动化工作吗?我不允许我的粉丝还不会!

下面我们来看看如何用Python解决这个问题,主要将涉及:openpyxl 写入 Excel 文件

python-docx 读取 Word 文件

glob 批量获取文件路径

为了简化上面的需求,本文中需要获取的会议通知文件一共 7 个,分别命名为 会议通知1.docx 会议通知2.docx... 会议通知7.docx,存放在 Notice 文件夹下。输出的目标 Excel 文件命名为 Meeting_temp.xlsx

基本逻辑

写代码之前都先明确完整的问题需要分为几个小步骤实现。从需求中我们大概可以将代码分为以下几步:“获取会议通知 Notice 文件夹下的所有文件;

解析每一份 Word 文件,获取需要的四个信息,输出到 Excel 中;

保存 Excel 文件”

有了逻辑就有了写代码的思路了。第 1 步可以由 glob 库完成,后面两步就是操作 Word 的 python-docx 库和操作 Excel 的 openpyxl 库的交互协作了。

这两个库我们都有说过,如果你不熟悉,一定要先阅读下面的文章!

代码实现

首先导入需要的库:

from docx import Document

from openpyxl import load_workbook

import glob

将模板 Excel 读取进程序:path  = r'C:\Users\xxx' # 路径为会议通知文件夹和 Excel 模板所在的位置,可按实际情况更改

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

写任何批处理的代码之前都建议先写一下单次操作的代码,因此我们先完成对 会议通知 1.docx 文件的解析,确保无误。现在对于文档的结构和关键信息的位置尚不明确,可以先将 Word 以段落 Paragraph 为单位输出观察:

wordfile = Document(path + r'\Notice\会议通知 1.docx')

for paragraph in wordfile.paragraphs:

print(paragraph)

213868512_5_20210124020117991

文件的文字排布脉络比较清晰,基本是一句话对应一个段落,而需要的信息可以简单通过判断每句话(每段话)前几个字而明确:for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

对于学习内容的获取比较特殊,不像其他三个信息,都在一句话中,且关键字就为前几个字:

213868512_6_20210124020118163

可以看到,“学习内容” 四个字和真正包含的内容分散在不同的句子中.这里简单用一个策略:“

建立一个空列表存放,然后遍历每一段判断,如果一个字符为数字且第二个字符为中文顿号 “、” 就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可:”

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

完成了解析 Word 文件之后,就需要把内容输出的 Excel 文件中了。

简单来说,就是将上面代码获取到的几个元素组合成一个列表,通过 sheet.append(list) 的方法写入 Excel 文件中:number = 0 # 全局中设置一个变量用于计数,做为序号输出

wordfile = Document(path + r'\Notice\会议通知 1.docx')

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

单个文件解析完,用 glob 改完获取文件夹下全部文件,建立循环逐个解析就能完成本需求,当然最后记得保存 Excel 文件。

完整代码如下👇

from docx import Document

from openpyxl import load_workbook

import glob

path  = r'C:\Users\xxx'

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

number = 0

for file in glob.glob(path + r'\Notice\*.docx'):

wordfile = Document(file)

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

workbook.save(path + r'\Meeting_notice.xlsx')

213868512_7_20210124020118272

核心也不过三十行代码,总共不过三秒就搞定了!213868512_8_20210124020118633

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/411591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[html] 说说你对html中的置换元素和非置换元素的理解

[html] 说说你对html中的置换元素和非置换元素的理解 置换元素是指:浏览器根据元素的标签和属性,来决定元素的具体显示内容。例如:浏览器根据标签的src属性显示图片。根据标签的type属性决定显示输入框还是按钮。非置换元素:浏览器…

Jmeter之逻辑控制器(Logic Controller)

一、简单控制器(Simple Controller): 作用:这是Jmeter里最简单的一个控制器,它可以让我们组织我们的采样器和其它的逻辑控制器(分组功能),提供一个块的结构和控制,并不具…

python需要掌握的词汇量_北大保安英语词汇量1.5万,会用Python编程,孟母三迁真有道理...

这就是良好学习环境的重要性啊,不然你以为“孟母三迁”是咋来的?人家孟母为了孩子有个好的学习环境,宁愿搬三次家。而这些保安小哥一步到位,直接就进入了无数人梦寐以求的最高学府,想不牛都不行啊。01、北大是最高学府…

oracle中日期处理方法 汇总

Day: dd number 12 dy abbreviated fri day spelled out friday ddspth spelled out, ordinal twelfth Month: mm number 03 mon abbreviated mar month spelled out march Year: yy two digits 98 yyyy four digits 1998 24小时格式下时间范围为: 0:00:00 - 23:5…

Spark-Streaming基础

Spark课堂笔记 Spark生态圈:Spark Core : RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib:协同过滤,ALS,逻辑回归等等 --> 机器学习Spark Graphx : 图计算 重点在前三…

[html] 谈谈你对input元素中readonly和disabled属性的理解

[html] 谈谈你对input元素中readonly和disabled属性的理解 相同点:都会使文本框变成只读,不可编辑。不同点:1.disabled属性在将input文本框变成只读不可编辑的同时,还会使文本框变灰,但是readonly不会。2.disabled属性…

小强升职记梗概_时间管理法 ——《小强升职记》读书笔记 1

时间管理的目的应该是充分利用时间来创造最大的价值。一、使用时间日志第一步:将所有的任务放入工作篮,不论是谁在什么时候交给我的任务,统统放进工作篮里。第二步:将可以置之不理的任务清除掉;将必须在某天处理或者必…

Visual Studio Team System 2008 安装失败

微软的东西 看样子也没怎么测试就发布了。。。 [10/27/08,23:05:56] Microsoft .NET Framework 3.5: [2] Error code 1603 for this component means "安装时发生严重错误"[10/27/08,23:05:58] Microsoft .NET Framework 3.5: [2] Setup Failed on component Microso…

80211 发送速率选择算法分析

转:https://blog.csdn.net/junglefly/article/details/48974077 1. 介绍《802.11无线网络权威指南 第二版》中对于选速和降速的描述: 市面上所有802.11接口均支持某种降速机制,可以根据不同网络环境调整所使用的数据传输速率。速率选择主要决…

java xml导出_java 导出xml文件的四种方式

public class CreateXML {//DOM方式创建XML文件public void DOMcreateXML() {DocumentBuilderFactory factory DocumentBuilderFactory.newInstance();DocumentBuilder db null;try {db factory.newDocumentBuilder();Document document db.newDocument();document.setXmlS…

[html] 如果让你实现一个网页版的办公表格(类似excel),你觉得是否可行?如果可行应该怎么做?

[html] 如果让你实现一个网页版的办公表格(类似excel),你觉得是否可行?如果可行应该怎么做? 尝试过写,底层还是用table,td,tr. 难点在于范围性选择单元格,横纵单元格合并互相不影响&#xff0c…

还是想继续写代码,不想这么快就去养猪~

前几天一个晚上我在想,除了写代码之外我还能做什么?没有头绪的打开163,xxx大学生意思是养猪发了,哥们我头绪来了,对养猪! 再看下文,对人家对养猪技术,怎样怎样精通?怎样专…

【题解】序列

题目描述 一个长度为k的整数序列b1,b2,...,bk(1≤b1≤b2≤...≤bk≤N)称为“好序列”当且仅当后一个数是前一个数的倍数,即bi1是bi的倍数对任意的i(1≤i≤k-1)成立。 给定N和k&#…

[html] 写一个搜索框,聚焦时搜索框向左拉长并有动画效果

[html] 写一个搜索框,聚焦时搜索框向左拉长并有动画效果 为啥直接粘贴html发布以后就没有了呢个人简介 我是歌谣,欢迎和大家一起交流前后端知识。放弃很容易, 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣一起通关前端面试题

Struts2 文件上传

JSP界面: 必须把表单的enctype属性改为 multipart/form-data才能上传 Action: 程序如果多人使用,必须保证文件名是唯一,文件名相同会覆盖掉原来的文件,所以使用时间作为文件名。可以把生成的文件名直接存入数据库中&am…

[html] 你了解HTML5的download属性吗?

[html] 你了解HTML5的download属性吗&#xff1f; <a href"/wordpress/wp-content/themes/default/images/index_logo.gif" download"_5332_">下载</a> 没用过&#xff0c;也不了解&#xff0c;但是看了下兼容性还是挺大问题的&#xff0c;实…

看新闻的时间用的太多了

也不知从什么时候开始习惯每天看新闻,好像有五六年的习惯了,只是现在每天看新闻的时间用的太多了(每天都至少5-6小时),而且越来越严重了,除了看新闻,基本只剩下工作和睡觉时间了.cctv2,央视新闻频道,第一财经每天必看,新浪,搜狐,凤凰网,时寒冰,牛刀等等,从时事,到经济,到体育,到…

第五章学习小结

第5章学习树和二叉树 树 1.树的结构定义是一个递归定义&#xff1a;树的定义中又用到树的定义 2.结点的度即为结点的分支数&#xff0c;树的度是树内各结点度的最大值&#xff0c;二叉树每个结点至多只有两颗子树&#xff08;即二叉树中不存在度大于2的结点&#xff09; 二叉树…

[html] 浏览器内多个标签页之间的通信方式有哪些?

[html] 浏览器内多个标签页之间的通信方式有哪些&#xff1f; 个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣一起通关前端面试题

SQL 内外连接

前两天去一家公司面试笔试&#xff0c;技术部人员问到“SQL语句左联接与内连接的区别”。记得上大学时。在学校做“实训教学管理系统”中曾用过该语句&#xff0c;印象中&#xff0c;还和同组中同学有过争吵&#xff08;技术上&#xff09;呢。 因此&#xff0c;当回答这道题时…