oxml中创建CT_Document类

概述

本文基于python-docx源码,详细记录CT_Document类创建的过程,以此来加深对Python中元类、以及CT_Document元素类的认识。
 

元类简介

元类(MetaClass)是Python中的高级特性。元类是什么呢?Python是面向对象编程语言,在Python中一切事物都是对象。如实例对象的实例化结果,而类则是元类实例化的结果。简而言之,元类是创建“类”的“类”——通过元类的__new__与__init__特殊方法管理类的创建过程。其中type对象是Python中内置的元类对象

那为什么需要元类呢?元类有很强大的功能,本文仅从“为新创建的类自动创建方法”为例进行记录。

元类的定义与使用

通过继承type对象来创建自己的元类:

class MyMetaClass(type):def __new__(cls, name, bases, attrs):print(f"Creating new class: {name}")return super().__new__(cls, name, bases, attrs)

name参数是新创建类的类名称,bases参数是新创建类的父类元祖,attrs是新创建类的属性字典。自定义完元类后,可以在类定义中通过“metaclass”关键字参数明使用自定义的元类,如果不指定,默认值为type对象:

class MyNewClass(metaclass=MyMetaClass):pass

当python解释器创建“基于自定义元类定义的新建类”时,就会调用自定义元类的__new__与__init__特殊方法,从而管理类的创建过程。
 

新建CT_Document元素类

CT_Document源码定义

CT_Document源码定义于“docx.oxml.document”模块,表示一个XML文档元素类(类别lxml.etree.ElementBase)。

class CT_Document(BaseOxmlElement):"""``<w:document>`` element, the root element of a document.xml file."""body: CT_Body = ZeroOrOne("w:body")  # pyright: ignore[reportAssignmentType]@propertydef sectPr_lst(self) -> List[CT_SectPr]:"""All `w:sectPr` elements directly accessible from document element.Note this does not include a `sectPr` child in a paragraphs wrapped inrevision marks or other intervening layer, perhaps `w:sdt` or customXmlelements.`w:sectPr` elements appear in document order. The last one is always`w:body/w:sectPr`, all preceding are `w:p/w:pPr/w:sectPr`."""xpath = "./w:body/w:p/w:pPr/w:sectPr | ./w:body/w:sectPr"return self.xpath(xpath)
  1. CT_Document类定义两个属性,其中body属性值是“CT_Body”类型,其取值为“ZeroOrOne”类型。注意限定性属性名为“w:body”。
  2. 除了sectpr_lstbody属性被显示定义外,其它属性继承于BaseOxmlElement类。

接下来本文将详细记录,python中的元类功能,如何自动为CT_Document添加许多方法。

BaseOxmlElement 基层类

BaseOxmlElement基础元素类是一种类似于lxml.etree.ElementBase的类对象,只是其遵循的是Office Open XML标准。首先看docx.oxml.xmlchemy源码定义:

# -- lxml typing isn't quite right here, just ignore this error on _Element --
class BaseOxmlElement(etree.ElementBase, metaclass=MetaOxmlElement):"""Effective base class for all custom element classes.Adds standardized behavior to all classes in one place."""def __repr__(self):return "<%s '<%s>' at 0x%0x>" % (self.__class__.__name__,self._nsptag,id(self),)

BaseOxmlElement类的定义比较简单,关于XML的元素类功能大部分继承自etree.ElementBase——作为BaseOxmlElement的父类,而其“类型”是MetaOxmlElement元类

MetaOxmlElement元类

MetaOxmlElement元类定义于docx.oxml.xmlchemy模块:

class MetaOxmlElement(type):"""Metaclass for BaseOxmlElement."""def __init__(cls, clsname: str, bases: Tuple[type, ...], namespace: Dict[str, Any]):dispatchable = (OneAndOnlyOne,OneOrMore,OptionalAttribute,RequiredAttribute,ZeroOrMore,ZeroOrOne,ZeroOrOneChoice,)for key, value in namespace.items():if isinstance(value, dispatchable):value.populate_class_members(cls, key)

MetaOxmlElement元类依然继承了type的__new__方法,但覆盖了__init__方法。__init__方法的逻辑也比较简单,如果namespace属性字典中的值是源码中指定的dispatchable类型,则调用对应类的populate_class_members方法。

_BaseChildElement类

_BaseChildElement类定义于docx.oxml.xmlchemy模块,为什么要在这里介绍此类?因为元类MetaOxmlElement的__init__方法中的dispatchable元组中,除了OptionalAttribute与RequiredAttribute外——但功能|角色有很大的相似性,其它类都是继承该基础类;并且后续许多自动为新创建的类添加方法,也与此类有关,因此在此处加以介绍。

class _BaseChildElement:"""Base class for the child-element classes.The child-element sub-classes correspond to varying cardinalities, such as ZeroOrOneand ZeroOrMore."""def __init__(self, nsptagname: str, successors: Tuple[str, ...] = ()):super(_BaseChildElement, self).__init__()self._nsptagname = nsptagnameself._successors = successorsdef populate_class_members(self, element_cls: MetaOxmlElement, prop_name: str) -> None:"""Baseline behavior for adding the appropriate methods to `element_cls`."""self._element_cls = element_clsself._prop_name = prop_name
  1. _BaseChildElement是一个典型的类定义,其父类是Python中的object对象。
  2. 初始化该类需要传入元素“命名空间前缀标签名称”与successors前置元素对象列表——比如一个<w:r>元素,可能需要传入段落格式<w:pPr>等前置元素对象。
  3. _BaseChildElement基础子类的populate_class_members方法的逻辑比较简单,将传入的参数值存储到实例属性中。
  4. 注意:prop_name一般为新创建类的属性名,而element_cls一般为新建类**。**_BaseChildElement或者其子类一般是作为新建类(基于MetaOxmlElement元类)的属性。将会结合后面的实例进行说明。

CT_Document创建细节

step1.Python解释器收集必要信息

本文基于Pycharm & Debug模式,调试下列脚本——仅包含一行代码:

from docx.oxml.document import CT_Document

调试模式下,跳转到源码中的class CT_Document(BaseOxmlElement):行:
CT_Document上下文信息

  1. 由于CT_Document的继承自BaseOxmlElement,而BaseOxmlElement是基于MetaOxmlElement元类创建的,因此CT_Document的默认metaclass为MetaOxmlElement元类。创建CT_Document时,会自动调用MetaOxmlElement元类的__init__方法。

  2. namespace属性字典中body属性值,存储的是一个ZeroOrOne实例对象。
    ZeroOrOne实例对象状态异常

step2. 执行MetaOxmlElement.__init__

在执行MetaOxmlElement.__init__的逻辑中,当key=body & value=ZeroOrOne()时,会执行ZeroOrOne.populate_class_members(cls, key),此时的cls为“CT_Document”类。
cls为CT_Document
此时许多私有方法显示状态异常,是因为“method_name”需要根据“prop_name”动态生成,而“prop_name”还未被ZeroOrOne实例引用。当执行完_BaseChildElement.populate_class_members后,异常状态就会消失。

step3. 执行ZeroOrOne.populate_class_members

ZeroOrOne为CT_Document自动添加方法

_BaseChildElement实例方法被封装的函数自动为新建类添加的方法名模版示例值新建方法功能说明
_add_getterget_child_elementproperty_namebody读取body子节点,如果不存在,则返回Nonebody作为可读特性,会覆盖CT_Document源码定义中的类属性值
_add_creatornew_child_element“_new_%s” % property_name_new_body根据限定性标签名称,创建一个空的子节点私有方法/辅助方法;创建空白子节点的能力继承lxml
_add_inserter_insert_child“_insert_%s” % property_name_insert_body将子节点插入到父节点中的指定为止私有方法/辅助方法;插入子元素节点的能力继承自lxml
_add_adder_add_child“_add_%s” % property_name_add_body新建子节点,并将子节点插入到父节点中的指定为止私有方法/辅助方法;可以看作是_add_creator & _add_inserter 功能的集成
_add_get_or_adderget_or_add_child“get_or_add_%s” % property_nameget_or_add_body获取或者新建目标子节点非私有方法;可以看作是_add_getter & _add_adder 功能的集成
_add_remover_remove_child“_remove_%s” % property_name_remove_body从父节点中删除目标子节点私有方法/辅助方法;删除子节点的能力继承自lxml

"_add_%s"系列的实例方法均定义于 _BaseChildElement,被封装的函数、及新增方法模版名称也均定义于 _BaseChildElement。oxml子库中为新创建的元素类自动添加对应的方法的逻辑,就在"_add_%s"系列的方法中实现
 

执行_BaseChildElement.populate_class_members

创建对新建类、属性名的引用。即第一行将“CT_Document”实例对象与“body”特性名称存储到ZeroOrOne实例对象属性中。第2-7行为CT_Documet类自动添加方法。
执行_BaseChildElement.populate_class_members

self._add_getter

_add_getter方法定义于_BaseChildElement类中,其源码如下:

   def _add_getter(self):"""Add a read-only ``{prop_name}`` property to the element class for this childelement."""property_ = property(self._getter, None, None)# -- assign unconditionally to overwrite element name definition --setattr(self._element_cls, self._prop_name, property_)

其中self.getter实例方法定义于_BaseChildElement类中,其源码如下:

@property
def _getter(self):"""Return a function object suitable for the "get" side of the propertydescriptor.This default getter returns the child element with matching tag name or |None|if not present."""def get_child_element(obj: BaseOxmlElement):return obj.find(qn(self._nsptagname))get_child_element.__doc__ = ("``<%s>`` child element or |None| if not present." % self._nsptagname)return get_child_element

self.getter实例方法即根据限定性标签名称“w:body”在CT_Document元素节点内查找子节点对象。执行setattr(self._element_cls, self._prop_name, property_)之前,CT_Document的body数值存储的是ZeroOrOne实例对象——定义于源码,执行完成之后,CT_Document的body类属性就对应一个body特征了。
setattr执行之前
setattr执行之后

self._add_creator

self._add_creator方法的功能是为新创建的类——根据上下文就是CT_Document,添加一个方法——根据限定性标签名称(w:body),为新创建的类,创建一个空的新子节点元素对象。

    def _add_creator(self):"""Add a ``_new_{prop_name}()`` method to the element class that creates a new,empty element of the correct type, having no attributes."""creator = self._creatorcreator.__doc__ = ('Return a "loose", newly created ``<%s>`` element having no attri'"butes, text, or children." % self._nsptagname)self._add_to_class(self._new_method_name, creator)@propertydef _creator(self) -> Callable[[BaseOxmlElement], BaseOxmlElement]:"""Callable that creates an empty element of the right type, with no attrs."""from docx.oxml.parser import OxmlElementdef new_child_element(obj: BaseOxmlElement):return OxmlElement(self._nsptagname)return new_child_element

注意“self._add_to_class”实例方法定义于_BaseChildElement类中,其功能是为新创建的类添加新方法:

    def _add_to_class(self, name: str, method: Callable[..., Any]):"""Add `method` to the target class as `name`, unless `name` is already definedon the class."""if hasattr(self._element_cls, name):returnsetattr(self._element_cls, name, method)

结合上下文,self._element_cls=CT_Document & name=_new_body & method=self.creator。执行self._add_to_class的后,CT_Document类签名变化如下:
自动添加的_new_body方法

self._add_inserter

_add_inserter方法封装了_insert_child函数——为父节点插入一个子节点。为XML元素节点插入子节点的能力继承自lxml.etree.ElementBase。

    def _add_inserter(self):"""Add an ``_insert_x()`` method to the element class for this child element."""def _insert_child(obj: BaseOxmlElement, child: BaseOxmlElement):obj.insert_element_before(child, *self._successors)return child_insert_child.__doc__ = ("Return the passed ``<%s>`` element after inserting it as a chil""d in the correct sequence." % self._nsptagname)self._add_to_class(self._insert_method_name, _insert_child)

执行完self._add_to_class方法后,其中self._insert_method_name="_insert_body",CT_Document签名中就包含新的方法“_insert_body”:
新创建_insert_body方法

self._add_adder

self._add_adder方法本质是“self._add_creator”与“self._add_inserter”二者的结合。self._add_adder方法封装了**_add_child函数**

    def _add_adder(self):"""Add an ``_add_x()`` method to the element class for this child element."""def _add_child(obj: BaseOxmlElement, **attrs: Any):new_method = getattr(obj, self._new_method_name)child = new_method()for key, value in attrs.items():setattr(child, key, value)insert_method = getattr(obj, self._insert_method_name)insert_method(child)return child_add_child.__doc__ = ("Add a new ``<%s>`` child element unconditionally, inserted in t""he correct sequence." % self._nsptagname)self._add_to_class(self._add_method_name, _add_child)

_add_child函数首先创建一个空的子节点,然后将“attr”属性字典写入到新建的空子节点,并将新建的子节点插入到目标父节点、返回新建的子节点。执行完self._add_to_class(self._add_method_name, _add_child),其中self._add_method_name="_add_body"后,CT_Document多自动添加了一个新方法“_add_body”:
自动添加_add_body方法

self._add_get_or_adder

"self._add_get_or_adder"方法对“get_or_add_child”函数进行了封装——如果父节点包含目标子节点,则直接取出目标子节点;如果不包含则新建一个目标子节点并返回,新建目标子节点依赖之前的“self._add_method_name”方法,即“self._add_body”

    def _add_get_or_adder(self):"""Add a ``get_or_add_x()`` method to the element class for this childelement."""def get_or_add_child(obj: BaseOxmlElement):child = getattr(obj, self._prop_name)if child is None:add_method = getattr(obj, self._add_method_name)child = add_method()return childget_or_add_child.__doc__ = ("Return the ``<%s>`` child element, newly added if not present.") % self._nsptagnameself._add_to_class(self._get_or_add_method_name, get_or_add_child)

self._get_or_add_method_name="get_or_add_body", 执行完“self._add_to_class()”,CT_Document就自动添加了一个新的方法:
新添加的get_or_add_body方法

self.add_remover

"self.add_remover"方法封装了“_remove_child”函数——该函数根据限定性标签名称,从父节点中删除目标子节点。元素节点中删除子节点的能力继承自lxml.etree.ElementBase.

    def _add_remover(self):"""Add a ``_remove_x()`` method to the element class for this child element."""def _remove_child(obj: BaseOxmlElement):obj.remove_all(self._nsptagname)_remove_child.__doc__ = ("Remove all ``<%s>`` child elements.") % self._nsptagnameself._add_to_class(self._remove_method_name, _remove_child)

self._remove_method_name="_remove_body", 执行完“self._add_to_class()”,CT_Document就自动添加了一个新的方法:
新增_remove_body方法

小结

在python-docx子库oxml中,虽然在源码中并未直接定义诸多元素类对子节点元素管理的增删改查方法。但是通过利用Python元类、类继承、以及简洁直观的代码模式设计,为诸多新创建的元素类,如CT_Document,自动添加了对子元素节点的增删改查方法。这种利用Python元类来管理类方法自动创建的模式值得学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/65403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jenkins入门6 --拉取代码

Jenkins代码拉取 需要的插件&#xff0c;缺少的安装下 新建一个item,选择freestyle project 源码管理配置如下&#xff1a;需要添加git库地址&#xff0c;和登录git的用户密码 配置好后执行编译&#xff0c;成功后拉取的代码在工作空间里

在 ASP.NET CORE 中上传、下载文件

创建 Web API 来提供跨客户端和服务器的文件上传和下载是常有的事。本文将介绍如何通过 ASP.NET CORE 来实现。 首先在 Visual Studio 中创建空的 Web API 项目&#xff0c;然后选择目标框架 .Net Core 3.1。 创建名为 FileController 的控制器&#xff0c;提供操作文件的接口…

vue2迁移至rsbuild

背景 由于远程机器配置较低&#xff0c;每次运行vue2项目都会非常卡。后期项目文件、路由更多的时候&#xff0c;启动到一半直接会跳出open too many files类似的错误&#xff0c;尝试将路由屏蔽掉只剩下开发所需的一个路由也不行&#xff08;不是说webpack的打包是全部打包&am…

智能手机租赁系统全新模式改变消费习惯与商家盈利路径

内容概要 智能手机租赁系统的崛起&#xff0c;让我们瞄到了一个消费市场的新风向标。想象一下&#xff0c;传统上人们总是为了最新款手机奋不顾身地排队、借钱甚至是透支信用卡。现在&#xff0c;通过灵活的租赁选项&#xff0c;消费者可以更加随意地体验高科技产品&#xff0…

浏览器报错:您的连接不是私密连接,Kubernetes Dashboard无法打开

问题描述 部署完成Kubernetes Dashboard后&#xff0c;打开HTTPS的web页面&#xff0c;Chrome和Edge浏览器都无法正常加载页面&#xff0c;会提示您的连接不是私密连接的报错。 ​​​​​​​​​​​​ 原因&#xff1a; 浏览器不信任这些自签名的ssl证书&#xff0c;为了…

docker pull(拉取镜像)的时候,无法下载或者卡在Waiting的解决方法

docker pull的时候&#xff0c;卡在Waiting的解决方法 一般情况&#xff08;大部分镜像都可以拉取&#xff09;更换镜像源 进一步&#xff08;如es等拉取不到&#xff09;在镜像同步站搜索详细步骤 还可以在挂载的时候&#xff0c;让其下载对应的版本 一般情况&#xff08;大部…

注册中心如何选型?Eureka、Zookeeper、Nacos怎么选

这是小卷对分布式系统架构学习的第9篇文章&#xff0c;第8篇时只回答了注册中心的工作原理的内容&#xff0c;面试官的第二个问题还没回答&#xff0c;今天再来讲讲各个注册中心的原理&#xff0c;以及区别&#xff0c;最后如何进行选型 上一篇文章&#xff1a;如何设计一个注册…

恒压恒流原边反馈控制芯片 CRE6289F

CRE6289F 系列产品是一款内置高压 MOS 功率开关管的高性能多模式原边控制的开关电源芯片。较少的外围元器件、较低的系统成本设计出高性能的交直流转换开关电源。CRE6289F 系列产品提供了极为全面和性能优异的智能化保护功能&#xff0c;包括逐周期过流保护、软启动、芯片过温保…

开源 AI 智能名片 2+1 链动模式商城小程序在商业营销中的心理博弈与策略应用

摘要&#xff1a;在当今竞争激烈的商业环境中&#xff0c;理解消费者心理对营销成败起着关键作用。本文聚焦于消费者 “占便宜” 心理&#xff0c;深入探讨开源 AI 智能名片 21 链动模式商城小程序如何利用这一心理&#xff0c;在 “双十一”“双十二” 等购物热潮背景下&#…

01 数据分析介绍及工具准备

数据分析介绍及工具准备 一、工具准备二、下载和使用Anaconda三、jupyter notebook常用快捷键 一、工具准备 数据科学库 NumPy&#xff0c;SciPy&#xff0c;Pandas&#xff0c;Scikit-Learn 数据可视化库 Matplotlib&#xff0c;Seaborn 编译器 Jupyter Notebook 数据科…

opencv摄像头标定程序实现

摄像头标定是计算机视觉中的一个重要步骤&#xff0c;用于确定摄像头的内参&#xff08;如焦距、主点、畸变系数等&#xff09;和外参&#xff08;如旋转矩阵和平移向量&#xff09;。OpenCV 提供了方便的工具来进行摄像头标定。下面分别给出 C 和 Python 的实现。 1. C 实现…

java项目之网上租贸系统源码(springboot+mysql+vue)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的网上租贸系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 基于Spring Boot的网上租贸…

协方差矩阵

协方差矩阵是一个对称矩阵&#xff0c;用来描述多个随机变量之间的协方差关系。协方差反映了两个随机变量如何共同变化的趋势&#xff0c;协方差矩阵将这种关系扩展到了多维数据。 1. 定义 假设有一个 n 维随机向量 &#xff0c;协方差矩阵 Σ 定义为&#xff1a; 其中&#…

deepin系统下开放指定端口

一、安装ufw 若已安装则跳过 sudo apt-get install ufw二、查看防火墙状态 sudo ufw status三、打开防火墙 sudo ufw enable四、开放端口 sudo ufw allow 6654/tcp五、windows下测试远程端口 telnet 192.168.1.22 6654六、关闭防火墙 sudo ufw disable附上ufw的全部命令…

我在广州学 Mysql 系列——与索引相关的练习题

ℹ️大家好&#xff0c;我是练小杰&#xff0c;今天星期二啦&#xff0c;还有三天就是星期五了&#xff0c;为了美好生活奋斗吧朋友们&#xff01; 本文将学习MYSQL中数据表内容的索引相关练习题目~~ 复习&#xff1a;&#x1f449;【索引详解】 数据库专栏&#x1f449;【数据…

通过 route 或 ip route 管理Linux主机路由

目录 一&#xff1a;route 使用说明1、查看路由信息2、删除指定路由3、增加指定路由 二&#xff1a;ip route 使用说明1、查看主机路由2、新增主机路由3、删除主机路由 通过route 或者ip route修改Linux主机路由后属于临时生效&#xff0c;系统重启后就恢复默认值了&#xff0c…

SASS 简化代码开发的基本方法

概要 本文以一个按钮开发的实例&#xff0c;介绍如何使用SASS来简化CSS代码开发的。 代码和实现 我们希望通过CSS开发下面的代码样式&#xff0c;从样式来看&#xff0c;每个按钮的基本样式相同&#xff0c;就是颜色不同。 如果按照传统的方式开发&#xff0c;需要开发btn &…

flutter 专题三十六 Flutter动态化框架Thresh

一、前言 移动端技术栈自诞生以来&#xff0c;其双端开发成本和发布效率一直广受诟病。为了解决这些问题&#xff0c;前端跨端技术一直在不断尝试&#xff0c;希望能一次开发、多端运行并且能做到快速发布。期间经历了多个技术发展阶段。 第一阶段&#xff1a;以H5为代表&…

python制作翻译软件

本文复刻此教程&#xff1a;制作属于自己的翻译软件-很简单【Python】_哔哩哔哩_bilibili 一、明确需求&#xff08;以搜狗翻译为例&#xff09; &#xff08;1&#xff09;网址&#xff1a;https://fanyi.sogou.com/text &#xff08;2&#xff09; 数据&#xff1a;翻译内容…

【C++】20.二叉搜索树

文章目录 1. 二叉搜索树的概念2. 二叉搜索树的性能分析3. 二叉搜索树的插入4. 二叉搜索树的查找5. 二叉搜索树的删除6. 二叉搜索树的实现代码7. 二叉搜索树key和key/value使用场景7.1 key搜索场景&#xff1a;7.2 key/value搜索场景&#xff1a;7.3 主要区别&#xff1a;7.4 ke…