python-docx常用方法总结

由于最近有任务需要自动生成word报告,因此学习了一些python-docx的使用方法,在此总结。

目前网上相关的资料不算太多,且大多数都很简单。有一些稍微复杂的需求往往找不到答案,很多想要的方法这个库似乎并没有直接提供。在git上看,这个包最新的一次更新是2021年。希望有大神能接过这个接力棒,继续维护更新。

一、基础内容

1、document对象

整个操作过程实际就是围绕着document对象进行“增删改查”。因此,首先需要创建一个文档对象

# pip install python-docx
from docx import Document
document = Document()

上述操作会创建一个新的空白文档,如果我们想打开已有的模板文档,只需指定其路径即可

document = Document('配置/基础模板.docx')

当所有的操作完成后我们需要保存文档

document.save(os.path.join(os.getcwd(), 'xx报告.docx'))

2、插入标题

from docx.enum.text import WD_PARAGRAPH_ALIGNMENT# 添加一个二级标题
head = document.add_heading(level=2)
# 标题居中
head.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
# 标题的内容
run = head.add_run('绿水青山就是金山银山')
# 字体
run.font.name = 'Times New Roman'

3、插入一个段落

from docx.shared import Pt# 先获得段落对象
p = document.add_paragraph()
# 首行缩进20磅
p.paragraph_format.first_line_indent = Pt(20)
# 设置段落格式
fmt = p.paragraph_format
# 设置行间距
fmt.line_spacing = 1.5    
# 一个段落可以有多个run对象,主要考虑同一段落的文字可能有多种样式
run = p.add_run('段落内容1')

这个run对象,一开始我也没太理解。已经添加了一个段落对象,直接填充段落内容不就行了嘛。段落对象下面再添加一个run对象是什么意思?原来这个run对象就是一段文本整体,这样你可以对这个整体进行统一样式设置。没有run对象的话,你就只能对段落对象进行统一设置,那就无法实现下面的效果

 对一个run对象设置字体、颜色、大小等方法如下

from docx.shared import RGBColor# 设置字体
run.font.name = 'Times New Roman'
# 字体大小
run.font.size = Pt(20)
# 字体颜色
run.font.color.rgb = RGBColor(255, 0, 0)
# 加粗
run.font.bold = True
# 斜体
run.font.italic = True

我们一般习惯使用“小四”、“五号”来表示字体大小,但在程序里只支持传入磅值,下面是字号和磅值的对应关系。

字号和磅值对应关系
字号磅值字号磅值
八号  
 
5小三  
 
15
七号  
 
5.5三号  
 
16
小六  
 
6.5小二  
 
18
六号  
 
7.5二号  
 
22
小五  
 
9小一  
 
24
五号  10.5一号  
 
26
小四  
 
12小初  
 
36
四号  14初号  42

4、插入一个表格

添加表格一般有两种情况。第一种是创建表格时就明确行和列的数量,然后循环往里添加内容

arr = np.array([['A', '001'], ['B', '002'], ['C', '003']])
# 如果要加表头,rows=4,表格预定义样式详见官网
table = document.add_table(rows=3, cols=2, style='Colorful List')
# 添加内容
for i, row in enumerate(table.rows):for j, cell in enumerate(row.cells):# 获取单元格中的段落对象paragraph = cell.paragraphs[0]# 和上面一样,这里的run可以设置一些属性run = paragraph.add_run(str(arr[i, j]))

 

 第二种情况是,提前并不确定表格的行列,需要根据数据情况临时添加。则可以先创建一个1*1的表格,然后向右增加列以及向下增加行

from docx.shared import Inches
# 自动行高,无须指定
table.add_row()
# 列宽需要指定,1英寸
table.add_column(width=Inches(1))

从上述代码可以看到,一个表格(table)对象由多个行(row)对象组成,一个行(row)对象又由多个单元格(cell)对象组成。单元格对象包含段落对象,有了段落对象我们就可以添加文字并设置样式。

5、插入图片

# 指定图片文件目录,指定插入后图片所占尺寸(会根据原始尺寸和指定尺寸自动缩放)
document.add_picture('xx.png', width=Pt(500), height=Pt(400))

6、插入页眉

from docx.shared import Cm
section = document.sections[0]
header = section.header
paragraph = header.paragraphs[0]
# 也可以直接插入文字
run = paragraph.add_run()
# 这里是插入logo图片
run.add_picture("logo.png", height=Cm(0.91))

二、常见问题

1、如何指定中文字体

前面我们指定的字体是新罗马体,没什么问题。但如果我们直接将其改为'宋体'或'Sim Sun',都不会生效。这是因为宋体是非西文字体,默认是西文字体,因此不识别。需要如下操作

from docx.oxml.ns import qn
run.font.name = '宋体'
# 设置东亚字体
run._element.rPr.rFonts.set(qn('w:eastAsia'), '宋体')

2、如何自定义样式

一份文档中,标题、正文、表格内容样式基本是统一的。因此,可以预先自定义一些样式,并命名。后续即可直接通过名称应用这些样式,而不用每次都去定义。有点像格式刷的效果。

from docx.enum.style import WD_STYLE_TYPEstyle = document.styles.add_style('my_style', WD_STYLE_TYPE.CHARACTER)
style.font.color.rgb = RGBColor(255, 0, 0)
style.font.name = '黑体'
style._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体')
style.font.size = Pt(20)
style.font.bold = Truerun1 = p.add_run('社会主义核心价值观是社会主义核心价值体系的内核')
run2 = p.add_run('比心')
# 将自定义的样式应用在run2上
run2.style = 'my_style'
run3 = p.add_run('体现社会主义核心价值体系的根本性质和基本特征')

3、如何替换模板文档中文字

如果我们想基于一个模板文档进行二次编辑,可以在模板文档中设置一些占位。通过替换占位达到编辑的目的。如果是替换表格内容,可遍历单元格cell,通过对cell.text重新赋值即可。

for p in document.paragraphs:if p.text == '占位1':# 清除原有内容;也可以直接令p.text = '新的内容'p._element.clear()run = p.add_run('新的内容')run.font.size = Pt(18)

 使用模板文档时有一个巨坑,新建的空白文档是支持预定义的样式的,而模板文件不一定。比如你在创建表格时指定style='Colorful List',实际并不一定会生效。具体原因目前还没搞清楚。具体模板文件有哪些预定义的样式,可以通过下述方法获知。

for style in document.styles:print(style.name)

 预定义的样式可查看官网,下面是部分截图

4、如何合并多个文档

new_doc = Document() # 以此类推,将多个文档(doc2,doc3)的内容添加进去
for elem in document1.element.body:new_doc.element.body.append(elem)

但这种方法有一个缺点,无法复制图片。下面提供一种不使用python-docx但有效的方法。

from win32com.client import Dispatchcwd = os.getcwd()
word = Dispatch('Word.Application')
doc_files = word.Documents.Add()
# 插入文档
doc_files.Application.Selection.Range.InsertFile(os.path.join(cwd, 'tmp1.docx'))
doc_files.Application.Selection.Range.InsertFile(os.path.join(cwd, 'tmp2.docx'))
doc_files.SaveAs(os.path.join(cwd, '合并.docx'))
# 一定要关闭
word.Quit()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dockerfile定制Tomcat镜像

Dockerfile中的打包命令 FROM : 以某个基础镜像作为此镜像的基础 RUN : RUN后面跟着linux常用命令,如RUN echo xxx >> xxx,注意,RUN 不能用于执行命令,因为每个RUN都是独立运行的,RUN 的cd对镜像中的…

PHP8的循环控制语句-PHP8知识详解

我们在上一节讲的是条件控制语句,本节课程我们讲解循环控制语句。循环控制语句中,主要有for循环、while循环、do...while循环和foreach循环。 在编写代码时,经常需要反复运行同一代码块。我们可以使用循环来执行这样的任务,而不是…

利用MMPose进行姿态估计(训练、测试全流程)

前言 MMPose是一款基于PyTorch的姿态分析开源工具箱,是OpenMMLab项目成员之一,主要特性: 支持多种人体姿态分析相关任务:2D多人姿态估计、2D手部姿态估计、动物关键点检测等等更高的精度和更快的速度:包括“自顶向下”…

力扣初级算法(二分查找)

力扣初级算法(二分法): 每日一算法:二分法查找 学习内容: 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 2.二分查找流程&…

Mageia 9 RC1 正式发布,Mandriva Linux 发行版的社区分支

导读Mageia 9 首个 RC 已发布。公告写道,自 2023 年 5 月发布 beta 2 以来,Mageia 团队一直致力于解决许多顽固问题并提供安全修复和新特性。 新版本的控制中心添加了用于删除旧内核的新功能,该功能在 Mageia 9 中默认自动启用,用…

探秘手机隐藏的望远镜功能:开启后,观察任何你想看的地方

当今的智能手机不仅仅是通信工具,它们蕴藏着各种隐藏的功能,其中之一就是让你拥有望远镜般的观察能力。是的,你没有听错!今天我们将探秘手机中隐藏的望远镜功能,这项神奇的功能可以让你打开后,轻松观察任何…

Spring Boot读取yml或者properties配置信息

文章目录 Spring Boot读取yml或者properties配置信息方法一:Value获取基本信息,适用于少量信息方法二:通过注解ConfigurationProperties(prefix "spring.datasource")方法三:通过api Environment Spring Boot读取yml或…

小兔鲜项目 uniapp (1)

目录 项目架构 uni-app小兔鲜儿电商项目架构 小兔鲜儿电商课程安排 创建uni-app项目 1.通过HBuilderX创建 2.通过命令行创建 pages.json和tabBar案例 uni-app和原生小程序开发区别 用VS Code开发uni-app项目 拉取小兔鲜儿项目模板代码 基础架构–引入uni-ui组件库 操…

SSM个人博客项目

文章目录 SSM个人博客系统实现项目介绍 一、准备工作0. 创建项目添加对应依赖1. 数据库设计2. 定时实体类 二、功能实现1.统一功能处理统一返回格式统一异常处理定义登录拦截器 2. 注册登录实现生成获取验证码密码加盐实现注册功能登录功能注销功能 3.登录用户博客列表获取登录…

机器学习笔记之优化算法(十)梯度下降法铺垫:总体介绍

机器学习笔记之优化算法——梯度下降法铺垫:总体介绍 引言回顾:线搜索方法线搜索方法的方向 P k \mathcal P_k Pk​线搜索方法的步长 α k \alpha_k αk​ 梯度下降方法整体介绍 引言 从本节开始,将介绍梯度下降法 ( Gradient Descent,GD ) …

SpringCloud Gateway获取请求响应body大小

前提 本文获取请求、响应body大小方法的前提 : 网关只做转发逻辑,不修改请求、相应的body内容。 SpringCloud Gateway内部的机制类似下图,HttpServer(也就是NettyServer)接收外部的请求,在Gateway内部请求将会通过Htt…

RISC-V基础之函数调用(四)非叶函数调用(包含实例)

叶函数是指不调用其他函数,也不改变任何非易失性寄存器的函数2。叶函数通常是一些简单的操作,如数学运算或逻辑判断。叶函数的特点是可以通过模拟返回来展开,即不需要保存或恢复寄存器的状态。 非叶函数是指调用其他函数或改变非易失性寄存器…

电力巡检无人机助力迎峰度夏,保障夏季电力供应

夏季是电力需求量较高的时期,随着高温天气的来临,风扇、空调和冰箱等电器的使用量也大大增加,从而迎来夏季用电高峰期,电网用电负荷不断攀升。为了保障夏季电网供电稳定,供电公司会加强对电力设施设备的巡检&#xff0…

opencv基础-34 图像平滑处理-2D 卷积 cv2.filter2D()

2D卷积是一种图像处理和计算机视觉中常用的操作,用于在图像上应用滤波器或卷积核,从而对图像进行特征提取、平滑处理或边缘检测等操作。 在2D卷积中,图像和卷积核都是二维的矩阵或数组。卷积操作将卷积核在图像上滑动,对每个局部区…

瑞数系列及顶像二次验证LOGS

瑞数商标局药监局专利局及顶像二次验证 日期:20230808 瑞数信息安全是一个专注于信息安全领域的公司,致力于为企业和个人提供全面的信息安全解决方案。他们的主要业务包括网络安全、数据安全、应用安全、云安全等方面的服务和产品。瑞数信息安全拥有一支…

现在转行搞嵌入式找工作难不难啊?

对于应届生来说,嵌入式开发的经验不会有太多,所以要求也不会太高。 嵌入式开发常用的是C语言,所以需要你有扎实的功底,这一点很重要,数据结构算法,指针,函数,网络编程 有了上面的基…

web题型

0X01 命令执行 漏洞原理 没有对用户输入的内容进行一定过滤直接传给shell_exec、system一类函数执行 看一个具体例子 cmd1|cmd2:无论cmd1是否执行成功,cmd2将被执行 cmd1;cmd2:无论cmd1是否执行成功,cmd2将被执行 cmd1&cmd2:无论cmd1是否执行成…

源码分析——ConcurrentHashMap源码+底层数据结构分析

文章目录 1. ConcurrentHashMap 1.71. 存储结构2. 初始化3. put4. 扩容 rehash5. get 2. ConcurrentHashMap 1.81. 存储结构2. 初始化 initTable3. put4. get 3. 总结 1. ConcurrentHashMap 1.7 1. 存储结构 Java 7 中 ConcurrentHashMap 的存储结构如上图,Concurr…

winform控件 datagridview分页功能

主要实现页面跳转、动态改变每页显示行数、返回首末页、上下页功能,效果图如下: 主代码如下: namespace Paging {public partial class Form1 : Form{public Form1(){InitializeComponent();}private int currentPageCount;//记录当前页行数…

一个竖杠在python中代表什么,python中一竖代表什么

大家好,小编来为大家解答以下问题,一个竖杠在python中代表什么,python中一竖代表什么,今天让我们一起来看看吧! 维基百科页面是错误的,我已经更正了。|和&不是布尔运算符,即使它们是急切运算…