python可以处理wps吗_基于python的docx模块处理word和WPS的docx格式文件方式

基于python的docx模块处理word和WPS的docx格式文件方式

发布时间:2020-08-23 05:37:05

来源:脚本之家

阅读:109

Python docx module for Word or WPS processing

本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入excel表格。

首先安装docx的python模块:

pip install python-docx

由于处理的为中文和符号,改成utf-8编码格式

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

from docx import Document

import pandas as pd

# 打开文件

doc = Document(ur'test_1.docx')

为了处理word中以对勾形式勾选的项目,采用下面 的方法

1、十字路口 √ 2、丁字路口 3、环形路口 4、人行立交

# 取出对号勾选的项目

print doc.tables[0].rows[3].cells[2].text

print doc.tables[0].rows[3].cells[2].text.split(u'√')[1].strip().split(' ')[0][2:]

'√' in doc.tables[0].rows[3].cells[2].text # 这个语句可以测试是否含有对勾,

# 有的话就取出对勾后面的item,否则直接返回填空的text

True

num_rows = len(doc.tables[0].rows)

print num_rows

xls = pd.read_csv(ur'output.csv')

print xls.columns[0]

diction = {}

# 找到每个excel文档中需要被记录的键值在docx文档表格中的位置

for xlskey in xls.columns:

for row_id in range(num_rows):

row = doc.tables[0].rows[row_id]

for cell_id in range(len(row.cells)):

if row.cells[cell_id].text.strip() == xlskey.strip():

diction[xlskey] = [row_id, cell_id]

# 查看一下获得的键值位置

for key in list(diction.keys()):

print key, diction[key]

楼层数 [21, 1]

宗地形状 [4, 1]

使用权取得时间 [14, 1]

采光通风状况 [19, 1]

已使用年限 [21, 4]

建筑朝向 [7, 1]

房屋结构 [17, 1]

交叉路口形式 [3, 1]

临街状况 [8, 1]

建筑容积率 [10, 5]

楼宇名称 [15, 5]

质量等级 [18, 1]

周围土地利用类型 [11, 1]

总建筑面积 [20, 1]

宗地位置 [0, 1]

所临道路名称 [2, 1]

装修标准 [16, 1]

那么我们认为这些表头键值对应的填入数据就在他们的右边,也就是下一个cell,因此我们只需要将row id不变,cell+1,就能取出填表内容。

# 开始填表!!!

for each_column in xls.columns:

pos = diction[each_column]

textion = doc.tables[0].rows[pos[0]].cells[pos[1] + 1].text

if u'√' in textion:

this_text = textion.strip(' ').split(u'√')[1].split()[0][2:]

else:

this_text = textion

xls.loc[0, each_column] = this_text

xls

楼宇名称

宗地位置

所临道路名称

交叉路口形式

宗地形状

建筑朝向

临街状况

周围土地利用类型

装修标准

房屋结构

质量等级

采光通风状况

总建筑面积

楼层数

已使用年限

建筑容积率

使用权取得时间

0

百兴花园

鄂州市鄂城区凤凰路47-11号

凤凰路

丁字路口

多边形

离街

商业用地

豪华

1、钢 2、钢、钢混 3、钢混 4、混合 5、砖木 6、其它

完好

122.7平方米

8

13年

Succeed!!!

之后只需要用一个glob函数取出所有的文档的path,然后依次执行上面的命令,即可完成word表格到excel(实际上是csv形式)的自动填表过程。

以上这篇基于python的docx模块处理word和WPS的docx格式文件方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持亿速云。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

两个苹果手机如何同步数据_同步苹果手机和Windows的提醒事项

作为一个学生党,能买得起苹果手机已经是一件很幸福的事情了,拥有苹果电脑只是一个美好的愿望,所以现在常见的搭配就是苹果手机加Window电脑,这样就有一个问题,就是苹果手机和Windows电脑的提醒事项没有办法同步&#x…

低通滤波器算法实现_控制算法手记自抗扰控制的几点思考

写在前面在谈自己的一些思考之前,放上一本简明的教材(只有133页),对自抗扰控制ADRC (Active disturbance rejection control)的起源、基本思路、结构、发展及应用做了阐述,是很好的入门读物。图1. 自抗扰控制入门书籍如果要达到弄懂&#xff…

添加日志_第五章springboot2.0添加aop日志实现记录请求地址

1. 添加spring-boot-starter-aop包<dependency><groupId>org.springframework.bootgroupId><artifactId>spring-boot-starter-aopartifactId><version>2.0.0.RELEASEversion>dependency>2. 新建WebLogAspect类3. 添加Aspect Component注解…

本机连接opc server有部分数据不刷新_实时数据库PI在企业MES系统中的应用

实时数据库是计算机控制系统和上层生产管理系统数据存储和展示的核心。结合河南天冠燃料乙醇有限公司MES系统应用实例&#xff0c;介绍了实时数据库PI的安装部署&#xff0c;建立信号量集和数据导入&#xff0c;以及客户端接口配置&#xff0c;数据库测试等相关主题。通过基于P…

pythonlistsort函数_python用List的内建函数list.sort进行排序

对List进行排序&#xff0c;Python提供了两个方法方法1.用List的内建函数list.sort进行排序list.sort(funcNone, keyNone, reverseFalse)Python实例&#xff1a;方法2.用序列类型函数sorted(list)进行排序(从2.4开始)Python实例&#xff1a;两种方法的区别&#xff1a;sorted(l…

java 数组赋值_自学JAVA每日记录(10)-欢迎指点欢迎共勉

接上一篇编程练习&#xff1a;编写一个JAVA程序&#xff0c;创建指定长度的 int 型数组&#xff0c;并生成 100 以内随机数为数组中的每个元素赋值&#xff0c;然后输出数组要求&#xff1a;1、 要求通过定义带参带返回值的方法来实现2、 通过参数传入数组的长度&#xff08;例…

agv系统介绍_AGV地面控制系统介绍

AGV控制系统分为地面(上位)控制系统、车载(单机)控制系统及导航/导引系统&#xff0c;其中&#xff0c;地面控制系统指AGV系统的固定设备&#xff0c;主要负责任务分配&#xff0c;车辆调度&#xff0c;路径(线)管理&#xff0c;交通管理&#xff0c;自动充电等功能&#xff1b…

python爬虫绕过验证码_爬虫怎样绕过验证码?

叶湘伦&#xff1a;【文字篇】如何系统地自学 Python&#xff1f;​zhuanlan.zhihu.com1&#xff0c;cookie登录利用cookie的特性&#xff1a;cookie会保持较长的时间&#xff0c;来避免用户频繁登录cookie一般由前端开发用js生成&#xff0c;可以利用抓包尝试下破解&#xff0…

python数据变更邮件提醒_如何使python脚本在某些数据更改时自动发送电子邮件?...

所以基本上&#xff0c;我做了一个python脚本&#xff0c;每12小时给我发送一封包含我公共IP地址的电子邮件。我的目标是使它自动发送电子邮件只有当我的IP更改。如果我能帮上忙的话。在我的密码是&#xff1a;from json import loadsfrom urllib.request import urlopenimport…

java异常处理机制_Java编程中的异常机制

本文旨在以初学者的角度来学习Java异常的知识&#xff0c;尽量简单&#xff0c;一些细枝末节的知识不会讲述&#xff0c;但不影响对知识的掌握。&#xff08;比如try-catch可以嵌套&#xff0c;不太会这么用&#xff09;1.什么是异常我们先举个例子int 在IDE里输入这样一个stat…

数组字典_VBA数组与字典解决方案第34讲:数组的传递

大家好&#xff0c;今日我们继续讲解VBA数组与字典解决方案&#xff0c;今日讲解的是第34讲&#xff1a;数组的传递。在应用数组的时候&#xff0c;我们往往需要要把数组的值由一个数组传递给另外一个数组&#xff0c;就如同变量的传递一样&#xff1a;AB 把B值赋给ACA 把A值赋…

为什么代码正确却没有爬虫的信息_为什么敷面膜没有效果?原来这才是敷面膜的正确步骤...

七夕泥萌都去哪浪了&#xff1f;是不是化个美美的妆&#xff0c;然后出门吃吃吃逛逛逛&#xff1f;说到出门前化妆&#xff0c;很多小仙女会在化妆前敷面膜&#xff0c;让皮肤保持一个好状态&#xff0c;壹知肤护肤研究中心贺老师&#xff08;sunny老师&#xff09;提到其实这是…

合并 多个dataframe_什么是Pandas的DataFrame?

1. 什么是DataFrameDataFrame是一个表格型的数据结构&#xff0c;它含有一组有序的列&#xff0c;每列可以是不同的值类型&#xff08;数值、字符串、布尔值等&#xff09;。DataFrame既有行索引也有列索引&#xff0c;它可以被看做由series组成的字典&#xff08;共用同一个索…

linux部署python web项目 详细_在linux服务器下部署python工程(爬虫)

---恢复内容开始---这两天 部署 这个 工程 &#xff0c;真的是 心力交瘁惹。如果有用到爬虫的话&#xff0c;python环境 先配好&#xff0c;如果是 python3的话 beautifulsoup 可以参见http://www.cnblogs.com/clover-xuqi/p/7155496.html 正题&#xff1a;简单来说 &#xff…

jap sql 保存_【hibernate spring data jpa】执行了save()方法 sql语句也执行了,但是数据并未插入数据库中...

【转】用CSS代码写出的各种形状图形的方法一共收集整理了图形20个,比较实用,同时也为了熟悉CSS的代码.整合了一下,有错误欢迎指出. 1.正方形 #square {width: 100px;height: 100px;background: ...转 -android&colon;程序无响应&#xff0c;你该如何定位问题&#xff1f;如…

web td不对齐_珍稀干货!阿里 Web 音视频开发趟坑指南

作者 | 阿里文娱前端技术专家 归影责编 | 夕颜出品 | CSDN(ID:CSDNnews)这不是一篇基于MSE开发Web播放器的入门文章&#xff0c;而是围绕Web播放器开发遇到的常见问题与解决方案&#xff0c;毕竟入门文章常有而趟坑干货不常有。如果您有Web播放开发经验和音视频技术基础&#x…

mysql57数据库命令_MySQL 5.7 mysql command line client 使用命令详解

MySQL 5.7MySQL command line client 使用命令1.输入密码&#xff1a;******2.ues mysql;使用Mysql3.show databases;显示数据库4.use register;使用数据库名为register5.show tables;显示register数据库中的表6.describe user;对表user进行操作&#xff1a;insert into user(u…

subscribe error不执行_你不知道的redis:第三方jar无封装命令我们该怎么执行?

redis的基本操作指令就不多说了&#xff0c;今天对redis的进阶操作给大家介绍一下&#xff0c;以及对于jedis和redisTemplate等工具包没有封装的命令我们该如何使用&#xff1f;相信大家读了本篇对redis的整体会有更深的认知。一、Pipelin模式介绍1、redis的通常使用方式大多数…

阿里云mysql 分布式_MySQL大型分布式集群

本套课程将通过分布式集群和分库分表两部分内容进行讲解1、主要解决针对大型网站架构中持久化部分中&#xff0c;大量数据存储以及高并发访问所带来是数据读写问题。分布式是将一个业务拆分为多个子业务&#xff0c;部署在不同的服务器上。集群是同一个业务&#xff0c;部署在多…

子窗体 记录选择_如何设计一个简单的Access登录窗体(1)

Access是一个对数据库新手相当友好的软件。Access的窗体功能确实是一种独一无二的前端设计平台&#xff0c;很多常见的人机交互用法&#xff0c;可以用Access的窗体来轻松实现&#xff0c;同时Access的查询和计算功能&#xff0c;也需要窗体的配合才能获得最佳的表达效果。 一、…