简化Java单元测试数据

用EasyModeling简化Java单元测试

EasyModeling 是我在2021年圣诞假期期间开发的一个 Java 注解处理器,采用 Apache-2.0 开源协议。它可以帮助 Java 单元测试的编写者快速构造用于测试的数据模型实例,简化 Java 项目在单元测试中准备测试数据的工作,在提高编写效率的同时,使单元测试更加整洁易读。经过一年的维护,EasyModeling 已经在几个 Thoughtworks 内部的项目上得到了应用,并迭代发布了几个版本。

单元测试中的数据准备的困难

在企业级应用软件开发项目中编写测试代码时,针对特定的测试场景,我们需要准备相应的测试数据,以验证被测组件在给定输入下的行为。在使用 Java 语言的项目中,这些准备测试数据的代码体现为创建各种“数据模型类”的实例。这里的数据模型类,可以包括聚合模型(Aggregation Model)、数据传递模型(DTO)、值对象(VO)以及存储模型(Persist Model)等等。无论是对服务组件的测试,还是对数据模型本身的测试,我们都无可避免地需要构建这些数据模型类的实例。

在项目的起初阶段,准备数据的工作是简单的,我们只需要调用数据模型类的构造方法,传入适当的参数来创建实例即可。单元测试代码的规模不会太大,也尚且清晰易读。

但是随着产品开发工作的展开,一方面,项目中使用的这些数据模型会变得越来越复杂;另一方面,测试场景也会变得越来越多。经验上,在经过几个版本迭代的企业级应用 Java 代码中,我们通常不难找出一些拥有十几个、甚至几十个成员变量的数据模型类,并且它们之间还存在着复杂的相互持有、嵌套、继承的关系。这些数据模型类往往都是项目中的核心组件,故而也成为单元测试需要重点关注的组件。相应地,在涉及这些数据模型的单元测试中,为准备测试数据而编写的初始化数据模型类的代码量也会越来越大、越来越复杂。

这些冗杂繁复的数据初始化代码会影响单元测试本身的代码质量,造成单元测试编写成本高、易读性差、易维护性低等问题。而单元测试的质量又与生产代码的质量息息相关。例如,单元测试的编写成本过高,会使开发者越来越倾向于仅在已有测试基础上做修改,而不是为每个场景创建单独的测试,造成单个测试的职责过多;甚至使开发者放弃单元测试,降低了团队对产品质量的信心。又比如,单元测试的易读性差,导致单元测试无法承担起“测试即文档(tests as documentation)”的职责。而单元测试的易维护性低,则导致了代码很难被重构,从而单元测试不仅没有为重构提供信心,反而变成重构的桎梏。

具体来说,这些初始化数据的代码会引起三个方面的问题:

  • 对测试场景的描述不清晰
  • 构建测试数据的代码重复
  • 初始化数据模型代码的膨胀

我们可以从下面的例子中略窥端倪。你是否在你的项目中见过这样的单元测试?

这是一段典型的使用JUnit测试框架的单元测试代码。在这段单元测试代码中,被测对象是 leaveCalculator 组件的 annualLeave 方法。我们首先创建一位员工,如(a)处;然后将创建好的员工对象传入 annualLeave 方法,为其计算出应得的年假数额,如(2)处;最后断言他应该享有20天年假,如(3)处。为了简化讨论,我们暂且假设此处 annualLeave 方法的业务规则是:员工应得的年假数额只与这位员工加入公司的时间(date of joining)相关,即在代码中 (1) 处初始化的日期。

我们来详细分析这段测试代码中存在的坏味道、以及其潜在的问题。

对测试场景的描述不清晰

如前文所述,我们假设这段单元测试代码的目的是验证“入职超过5年的员工应该享有20天年假”这个业务规则。那么显然,其中只有 (1), (2), (3) 这三处是与当前测试场景相关的,它们共同构成了对上述业务规则的描述。而在 (1) 处之前传入 Employee 类构造方法的那些参数都是与当前测试场景无关的。遗憾的是,这些与测试场景无关的代码却占据了这个代码片段中的绝大部分代码行。

在实际项目中,我们会见到很多这样的单元测试,它们往往需要用几十行的代码来准备复杂的测试数据,需要初始化数个数据模型类的对象,以支持对被测组件的调用,然而这些代码中真正在描述测试场景的,却只有其中区区几行、甚至一两行。这不仅增加了测试的篇幅,还会导致阅读者无法快速聚焦在有意义的初始化条件上。就像我们在这个例子中看到的,描述测试场景的代码行(1)处混杂在大量初始化测试数据的代码行之中,造成了单元测试对测试场景的描述不聚焦。这使单元测试的阅读者很难从这段测试代码中一目了然地理解测试的意图,更遑论以测试为文档来理解业务规则。而在测试失败时,也无法快速从测试场景的数据构造出发去定位问题。

一些有经验的单元测试编写者已经注意到了这个问题,他们会在关键的测试数据初始化行末添加一些注释以示强调。然而注释本身就预示着代码坏味道,并且在重构中也是非常不安全的,甚至反而误导读者。

构建测试数据的代码重复

如果将目光从单个测试放大到单元测试组(Test Suit),我们会发现在针对同一个被测组件的不同测试场景下,初始化数据模型的代码会大量重复。例如在针对员工年假数额计算(leaveCalculator 组件的 annualLeave 方法)的测试组中,假设按照业务规则,我们需要考虑以下的测试场景:

  1. 入职不足2年的员工,应该享有10天年假;
  2. 当年入职的员工,享有按照入职时间折算的年假数额;
  3. 入职超过2年,而不足5年的员工,应该享有15天年假;
  4. 入职超过5年的员工,应该享有20天年假;
  5. 入职超过7年的员工,应该享有25天年假;
  6. 入职时间在未来(尚未入职)的员工,不应该计算年假数额(抛出异常);

不难想象,我们会分别在这6个测试场景对应的测试方法中重复地编写几乎完全相同的代码来初始化Employee类的对象。

这样的单元测试模式在企业级应用开发的场景中比比皆是。开发者经常很容易在测试第二个场景时,顺手从第一个场景的单元测试中复制初始化数据模型的代码,略作修改来描述第二个测试场景,后面的测试场景也如法炮制。这样显然会造成测试代码中存在大量的模板代码(Boilerplate code),进一步降低了代码的易读性。

通常在开发项目的实践中会引入构建者模式(Builder Pattern)或者 Object Mother 组件来消除这些模板代码。本文非常欣赏这些解决方案,下文会在此基础上做进一步讨论。

初始化数据模型代码膨胀

另外需要注意的是,前文举例的代码中为节省篇幅已经做了很多简化。我们不仅用省略号折叠了(1)处之后可能传入构造方法的更多的初始化参数,还折叠了在(b)处初始化 List<Department> departments 参数时逐个构造 Department 类对象所需要的大量细节,甚至在初始化每个Department类对象时,又另外需要构造更多的相关实例。

当然在实践中,经常使用的策略是将大量无关的属性设置成 null 或者空集合,但是这有时候会在被测组件对数据类有效性检查中被拦截。特别是在某些演进了一段时间的代码库中,我们经常会遇到的困难是,由于在测试中构造数据时采用了过多的 null 和空集合,一个新添加的数据有效性检查步骤或者切面(AOP),会造成几百个单元测试的失败。逐一修复这些失败的单元测试的工作量无疑是巨大的,同时是充满风险的,因为此时对单元测试的修改完全是为了兼容一个新添加的切面,而脱离了单元测试本身的业务上下文。

在这种情况下,开发者会越来越多选择将相似的数据有效性检查步骤散布在具体的业务代码中,而非在构造方法中统一检查、或者通过切面集中实现。可见,单元测试的不良设计,会反过来增加生产代码的维护难度,拖累了生产代码的演进。

EasyModeling提供的能力

造成开发者写出类似单元测试的原因是广泛存在的。例如,Employee 类没有提供更灵活的构造方法,也没有 Builder 模式的构造器。从 Employee 类自身的职责的角度出发,它的确没有理由提供一个仅包含 LocalDate dateOfJoining 作为参数的构造方法。在很多业务场景下,数据模型类也完全有可能就是不允许通过 Builder 模式来构造的。我们当然不能为了编写测试代码的便利,而去修改生产实现代码。又例如,代码中可能存在对 Employee 类的数据合法性校验。这些校验可能是类似切面的形式存在的,导致我们无法方便地在单元测试中忽略它。

在实际项目中,开发者很容易从“消除重复”的角度,抽象出相应的工厂类来提供测试所需要的数据模型实例。Martin Fowler 也在他的博客的短文 Object Mother 中简要讨论了相关的思路。但是在测试中使用工厂组件虽然消除了很多重复代码,却没有提供针对不同的测试场景的灵活定制能力,因此一些项目又会同时采用 Builder 模式来提供定制能力。我自己在多个项目上引入 Object Mother 来提供测试数据实例后发现,这些工厂类本身又具有非常固定的代码模板,于是我开始考虑开发一个工具来自动生成这种工厂类。

受到 Builder 模式和 Object Mother 思想的启发,我开发了 EasyModeling 来尝试简化 Java 单元测试的编写,并提高测试的可读性和易维护性。EasyModeling 是一个 Java 注解处理器库,它主要提供三个方面的功能:

  1. EasyModeling在编译期根据指定的数据模型类的结构,生成对应的数据模型工厂类,以方便单元测试快速生成数据模型类的实例。通过向 EasyModeling 注册一个数据模型类,单元测试的编写者只需要调用 EasyModeling 所提供工厂类的静态方法,就可以立即得到这个数据模型类的实例。
  2. EasyModeling 还可以在单元测试的运行时,自动初始化它所生成的数据模型实例。在生成数据模型实例时,EasyModeling 默认的行为是给数据模型实例的字段填充随机值,让开发者不需要再耗费精力去填充对测试场景无意义的属性。同时,开发者仍然有机会向 EasyModeling 指定每个数据模型类的每个字段所需的初始化方式。
  3. 另外,EasyModeling 还在其生成的工厂类中提供了一个 Builder 模式的构建器。利用这个构建器,开发者可以定制、并仅定制与当前测试场景相关的字段,使单元测试简短、清晰、易读。

在编码层面,EasyModeling 的行为完全发生在测试包中,丝毫不会侵入项目的生产实现代码。同时,EasyModeling 只会照顾开发者向它注册的数据类型类,而不会在代码库中主动搜索。所以即使是维护已久的代码库,从任何时间点引入 EasyModeling 都不会造成额外的负担。

EasyModeling简化后的单元测试

在引入了 EasyModeling 后,本文中第一节中的单元测试例子可以得到显著地简化:

除此之外,如前文提到,开发者需要在测试代码中向 EasyModeling 注册 Employee 类:

首先我们看到,在引入 EasyModeling 后,单元测试的代码在篇幅上得到了非常明显地简化。在单元测试中 (4) 处,EmployeeModeler 类就是由 EasyModeling 在编译期生成的工厂类,通过引用 EmployeeModeler 类中的静态方法 builder(),我们可以得到 Employee 类的Builder 的实例。请注意,此处使用的 Builder 类不是由 Employee 类自己编写的,也不是通过如 Lombok 这样的工具来提供的,而是由 EasyModeling 在其生成的工厂类 EmployeeModeler 来提供的。这样的好处是,为了测试而准备的 Builder 完全没有侵入生产代码。

其次,在 (4) 处生成的 Builder 类的实例中,EasyModeling 已经为我们尽可能多地填充了所有的成员变量。因此,我们接下来只需要聚焦在当前测试场景所关心的成员变量上。例如在 (5) 处,我们将 dateOfJoining 字段的内容设置为指定的日期。在可读性方面,由于避免了冗长的初始化参数,所以使开发者在阅读单元测试时,能够快速理解测试场景,进而也比较容易修改或维护单元测试。

第三,EasyModeling 在填充数据模型实例的属性时,不仅能够填充一些 Java 应用中常用的数据类型,包括基本类型、数组、集合、时间日期等等,还能够进一步填充当前数据模型所引用的其他数据模型。例如 Employee 类中引用的 List<Department> departments 列表字段。

最后,为了让 EasyModeling 帮我们生成 Employee 类的工厂类,如以上代码中 (6) 处,开发者只需要在任意的一个类上通过 @Model 注解声明即可。EasyModeling在编译期为所有被 @Model 注解声明的数据模型类生成对应的工厂(Modeler)类。

除此之外,EasyModeling 还提供了其他一些好用的特性,限于篇幅,具体的用法请参考文档。

EasyModeling的不足和未来

但是由于我的业余精力和能力都非常有限,EasyModeling 目前还处于它成长的初期,存在几点显然的不足。

第一,没有维护良好的使用文档。目前我只维护了一份项目 Readme 文件,作为简要的使用文档,导致一些略高级的使用方法和一些从新版本开始支持的功能并没有体现在文档中。

第二,没有维护文档注释。遵循代码整洁的原则,在长期从事的企业应用开发中,我几乎不会写任何形式的注释。所以我也没有意识到,在维护一个更偏底层的开源工具库时,充分的文档注释是非常必要的。一方面,文档注释便于开发者用户查看阅读,也便于有兴趣的贡献者参与开发。另一方面,由于这种较为基层的工具中无可避免地要使用一些魔法,如果没有良好的注释,随着时间推移,可能连我自己也会忘记其中的细节。

由于 EasyModeling 是一个关注单元测试的工具,而不会入侵任何生产代码,因此,在 Java 项目中引入 EasyModeling 几乎不会对项目的可靠性、安全性造成任何风险。所以如果你对这个工具感兴趣,认为它有可能帮助你提高编写测试的效率,请不妨引入到你的项目中尝试使用。

未来,由于我自己在项目上会持续使用 EasyModeling 来构建测试数据,所以我基本可以保证持续维护这个工具。在近期,我将聚焦在完善使用文档,以及修复从用户反馈的一些缺陷。在EasyModeling 的功能特性方面,虽然我手上目前依然积压着一些我自己想要实现的功能,但是我更想从用户的反馈中收集更多有趣的好主意,再来推进下一阶段的功能演进。


文/Tthoughtworks张哲
原文链接:用EasyModeling简化Java单元测试-Thoughtworks洞见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/12571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

老胡的周刊(第101期)

老胡的信息周刊[1]&#xff0c;记录这周我看到的有价值的信息&#xff0c;主要针对计算机领域&#xff0c;内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 &#x1f3af; 项目 ollama[2] 你可以下载 Ollama 在本地运行 Ll…

链表基础知识

一、什么是链表 链表是一种物理存储结构上非连续&#xff0c;非顺序的存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的指针链接次序实现的。 链表的结构是多式多样的&#xff0c;当时通常用的也就是两种&#xff1a; &#xff08;1&#xff09;第一种是无头非循环单向…

live-server本地起node服务解决跨域问题

一、初始化node,构建package.json NPM 全局安装live-server npm install -g live-server在当前项目文件夹下cmd运行&#xff1a; npm init -y此时会在根目录下生成一个package.json文件。 二.生成代理脚本 在根文件夹新建一个build.js文件&#xff08;名字可以自定义) var …

Linux中的pause函数

2023年7月29日&#xff0c;周六上午 函数原型 在Linux中&#xff0c;pause()函数用于使当前进程暂停执行&#xff0c;直到接收到一个信号。 #include <unistd.h>int pause(void);pause()函数不接受任何参数。 通常&#xff0c;pause()函数用于编写简单的信号处理程序&…

并发编程可能出现的核心问题

2.1非可见性 如果主内存里有个静态变量flagfalse&#xff0c;然后线程A和B在工作内存都需要操作flag&#xff0c;线程A是while(!false){}&#xff0c;而线程B将flag改为true&#xff0c;但是由于线程A和线程B之间工作内存互相不可见&#xff0c;线程A就会陷入死循环。 2.2指令…

idea如何解决导入的项目不是Maven工程(文件下面没有蓝色的方格)二

简介&#xff1a; Maven项目导入&#xff0c;idea不识别项目 解决方法&#xff1a; 选中pom.xml -- 右键 -- Add as Maven Project

devops(后端)

1.前言 该devpos架构为gitlabjenkinsharbork8s&#xff0c;项目是java项目&#xff0c;流程为从gitlab拉取项目代码到jenkins&#xff0c;jenkins通过maven将项目代码打成jar包&#xff0c;通过dockerfile构建jdk环境的镜像并把jar包放到镜像中启动&#xff0c;构建好的镜像通…

【Quartus FPGA】EMIF DDR3 读写带宽测试

在通信原理中&#xff0c;通信系统的有效性用带宽来衡量&#xff0c;带宽定义为每秒传输的比特数&#xff0c;单位 b/s&#xff0c;或 bps。在 DDR3 接口的产品设计中&#xff0c;DDR3 读/写带宽是设计者必须考虑的指标。本文主要介绍了 Quartus FPGA 平台 EMIF 参数配置&#…

DB-GPT:强强联合Langchain-Vicuna的应用实战开源项目,彻底改变与数据库的交互方式

今天看到 蚂蚁科技 Magic 开源的DB-GPT项目&#xff0c;觉得创意很好&#xff0c;集成了当前LLM的主流技术&#xff0c;主要如下 Langchain&#xff1a; 构建在LLM之上的应用开发框架HuggingFace: 模型标准&#xff0c;提供大模型管理功能Vicuna: 一个令GPT-4惊艳的开源聊天机…

[NLP]使用Alpaca-Lora基于llama模型进行微调教程

Stanford Alpaca 是在 LLaMA 整个模型上微调&#xff0c;即对预训练模型中的所有参数都进行微调&#xff08;full fine-tuning&#xff09;。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT) 因此&#xff0c; Alpaca-Lora 则是利用 Lora…

#systemverilog# 说说Systemverilog中《automatic》那些事儿

前面我们学习了有关systemverilog语言中有关《static》的一些知识,同static 关系比较好的哥们,那就是 《automatic》。今天,我们了解认识一下。 在systemveriog中,存在三种并发执行语句,分别是fork..join,fork...join_any和fork..join_none,其中只有fork...join_none不…

【Spring AOP学习】AOP的组成 SpringAOP的实现和实现原理

目录 一、认识SpringAOP 1、AOP是什么&#xff1f; 2、AOP的功能 3、AOP的组成&#xff08;重要&#xff09; 二、SpringAOP的实现 &#x1f337;1、添加Spring AOP框架支持 &#x1f337;2、定义切面和切点 &#x1f337; 3、定义通知 3.1 完成代码实现 3.2 具体通知…

抽象工厂模式——产品族的创建

1、简介 1.1、简介 抽象工厂模式为创建一组对象提供了一种解决方案。与工厂方法模式相比&#xff0c;抽象工厂模式中的具体工厂不只是创建一种产品&#xff0c;它负责创建一族产品 1.2、定义 抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09;&#xff1a;提供…

Acwing.898 数字三角形(动态规划)

题目 给定一个如下图所示的数字三角形&#xff0c;从顶部出发&#xff0c;在每一结点可以选择移动至其左下方的结点或移动至其右下方的结点&#xff0c;一直走到底层&#xff0c;要求找出─条路径&#xff0c;使路径上的数字的和最大。 输入格式 第一行包含整数n&#xff0…

螺旋矩阵 II

给你一个正整数 n &#xff0c;生成一个包含 1 到 n2 所有元素&#xff0c;且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1&#xff1a; 输入&#xff1a;n 3 输出&#xff1a;[[1,2,3],[8,9,4],[7,6,5]] 示例 2&#xff1a; 输入&#xff1a;n 1 输出&a…

零信任网络架构与实现技术的研究与思考

目前&#xff0c;国外已有较多有关零信任网络的研究与实践&#xff0c;包括谷歌的 BeyondCorp、BeyondProd&#xff0c;软件定义边界&#xff08;Software Defined Perimeter&#xff0c;SDP&#xff09; 及盖特提出的“持续自适应风险与信任评估”等。国内也有不少安全厂商积极…

vue中预览静态pdf文件

方法 // pdf预览 viewFileCompare() { const pdfUrl "/static/wjbd.pdf"; window.open(pdfUrl); }, // 下载 downloadFile(){ var a document.createElement("a"); a.href "/static/wjbd.pdf"; a.…

关于Anaconda环境配置的一些问题

文章目录 一、关于package文件安装位置二、关于尝试下载Python包时出现的CondaSSLError三、配置环境的整个流程 一、关于package文件安装位置 package 文件安装在envs目录底下的Lib中&#xff0c;可以参考一下。 在对应的Python脚本文件中&#xff0c;选择Parameters&#xff0…

【Spring】Spring 总览

一、简单介绍一下 Spring Spring是一个全面的、企业应用开发的一站式解决方案&#xff0c;贯穿表现层、业务层、持久层&#xff0c;可以轻松和其他框架整合&#xff0c;具有轻量级、控制反转、面向切面、容器等特征。 轻量级 &#xff1a; 空间开销和时间开销都很轻量 控制反…

蓝桥杯单片机第十二届国赛 真题+代码

iic.c /* # I2C代码片段说明1. 本文件夹中提供的驱动代码供参赛选手完成程序设计参考。2. 参赛选手可以自行编写相关代码或以该代码为基础&#xff0c;根据所选单片机类型、运行速度和试题中对单片机时钟频率的要求&#xff0c;进行代码调试和修改。 */ #include <STC1…