使用真实 Elasticsearch 进行更快的集成测试

作者:来自 Elastic Piotr Przybyl

了解如何使用各种数据初始化和性能改进技术加快 Elasticsearch 的自动化集成测试速度。

在本系列的第 1 部分中,我们探讨了如何编写集成测试,让我们能够在真实的 Elasticsearch 环境中测试软件,并非难事。本文将演示各种数据初始化和性能改进的技术。

不同的目的,不同的特点

一旦测试基础设施设置完毕,并且项目已经使用集成测试框架进行至少一个测试(例如我们在演示项目中使用 Testcontainers),添加更多测试就变得很容易,因为它不需要模拟。例如,如果你需要验证 1776 年获取的书籍数量是否正确,你只需添加一个测试,如下所示:

@Test
void shouldFetchTheNumberOfBooksPublishedInGivenYear() {var systemUnderTest = new BookSearcher(client);int books = systemUnderTest.numberOfBooksPublishedInYear(1776);Assertions.assertEquals(2, books, "there were 2 books published in 1776 in the dataset");
}

只要用于初始化 Elasticsearch 的数据集已包含相关数据,这就足够了。创建此类测试的成本很低,维护它们几乎毫不费力(因为它主要涉及更新 Docker 镜像版本)。

没有软件是独立存在的

如今,我们编写的每一个软件都与其他系统相连。虽然使用模拟的测试非常适合验证我们正在构建的系统的行为,但集成测试让我们确信整个解决方案能够按预期运行并将继续如此。这可能会让我们忍不住添加越来越多的集成测试。

集成测试有其成本

然而,集成测试并非免费。由于其性质 —— 超越了仅在内存中的设置 —— 它们往往更慢,从而浪费我们的执行时间。

平衡收益(集成测试带来的信心)与成本(测试执行时间和计费,通常直接转化为云供应商的发票)至关重要。我们可以让它们运行得更快,而不是因为测试速度慢而限制测试数量。这样,我们可以在添加更多测试的同时保持相同的执行时间。本文的其余部分将重点介绍如何实现这一点。

让我们重新回顾一下我们迄今为止使用的示例,因为它非常慢并且需要优化。对于本次和后续实验,我假设 Elasticsearch Docker 映像已被提取,因此不会影响时间。另外,请注意,这不是一个合适的基准,而是一个一般准则。

利用 Elasticsearch 的测试也可以从性能提升中受益

Elasticsearch 经常被选为搜索解决方案是因为其高性能表现。开发人员通常会非常谨慎地优化生产代码,尤其是在关键路径上。然而,测试通常被视为次要,导致测试运行缓慢,以至于很少有人愿意运行测试。但情况并不一定要如此。通过一些简单的技术调整和方法上的改变,集成测试可以运行得更快。

让我们从当前的集成测试套件开始。该测试套件按预期运行,但仅运行三个测试时,通过执行 time ./mvnw test '-Dtest=*IntTest*' 需要耗时五分半钟 —— 每个测试大约 90 秒。请注意,你的结果可能会因硬件、网络速度等因素而有所不同。

如果可以,请批量处理

在集成测试套件中,许多性能问题源于数据初始化效率低下。虽然某些流程在生产流程中可能是自然的或可接受的(例如,数据在用户输入时到达),但这些流程可能不是测试的最佳选择,因为我们需要快速批量导入数据。

我们示例中的数据集约为 50 MiB,包含近 81,000 条有效记录。如果我们单独处理和索引每条记录,我们最终会发出 81,000 个请求,只是为了为每个测试准备数据。

而不是像在主分支中那样使用简单的循环逐个索引文档:

boolean hasNext = false;
do {try {Book book = it.nextValue();client.index(i -> i.index("books").document(book));hasNext = it.hasNextValue();} catch (JsonParseException | InvalidFormatException e) {// ignore malformed data}
} while (hasNext);

我们应该使用批处理方法,例如使用 BulkIngester。这允许并发索引请求,每个请求发送多个文档,从而大大减少请求数量:

try (BulkIngester<?> ingester = BulkIngester.of(bi -> bi.client(client).maxConcurrentRequests(20).maxOperations(5000))) {boolean hasNext = true;while (hasNext) {try {Book book = it.nextValue();ingester.add(BulkOperation.of(b -> b.index(i -> i.index("books").document(book))));hasNext = it.hasNextValue();} catch (JsonParseException | InvalidFormatException e) {// ignore malformed data}}
}

这一简单的改变将整体测试时间缩短至 3 分 40 秒左右,即每次测试大约 73 秒。虽然这是一个不错的改进,但我们可以进一步改进。

保持本地化

我们在上一步中通过限制网络往返缩短了测试时长。在不改变测试本身的情况下,我们是否可以消除更多的网络调用?

让我们回顾一下当前的情况:

  • 在每次测试之前,我们都会反复从远程位置获取测试数据。
  • 在获取数据时,我们会将其批量发送到 Elasticsearch 容器。

我们可以通过将数据尽可能靠近 Elasticsearch 容器来提高性能。还有什么比容器本身更近呢?

将数据批量导入 Elasticsearch 的一种方法是 _bulk REST API,我们可以使用 curl 调用它。此方法允许我们发送以换行符分隔的 JSON 格式编写的大型有效负载(例如,来自文件)。格式如下所示:

action_and_meta_data\n
optional_source\n
action_and_meta_data\n
optional_source\n
....
action_and_meta_data\n
optional_source\n

确保最后一行为空。

在我们的例子中,文件可能如下所示:

{"index":{"_index":"books"}}
{"title":"...","description":"...","year":...,"publisher":"...","ratings":...}
{"index":{"_index":"books"}}
{"title":"Whispers of the Wicked Saints","description":"Julia ...","author":"Veronica Haddon","year":2005,"publisher":"iUniverse","ratings":3.72}

理想情况下,我们可以将这些测试数据存储在一个文件中,并将其包含在存储库中,例如 src/test/resources/。如果这不可行,我们可以使用简单的脚本或程序从原始数据生成文件。例如,请查看演示存储库中的 CSV2JSONConverter.java。

一旦我们在本地有了这样的文件(这样我们就消除了获取数据的网络调用),我们就可以解决另一点,即:将文件从运行测试的机器复制到运行 Elasticsearch 的容器中。这很容易,我们可以在定义容器时使用单个方法调用 withCopyToContainer 来做到这一点。所以更改后它看起来像这样:

@Container
ElasticsearchContainer elasticsearch =new ElasticsearchContainer(ELASTICSEARCH_IMAGE).withCopyToContainer(MountableFile.forHostPath("src/test/resources/books.ndjson"), "/tmp/books.ndjson");

最后一步是从容器内部发出请求,将数据发送到 Elasticsearch。我们可以通过在容器内运行 curl 来使用 curl 和 _bulk 端点执行此操作。虽然这可以在 CLI 中使用 docker exec 完成,但在我们的 @BeforeEach 中,它变成了 elasticsearch.execInContainer,如下所示:

ExecResult result = elasticsearch.execInContainer("curl", "https://localhost:9200/_bulk?refresh=true", "-u", "elastic:changeme","--cacert", "/usr/share/elasticsearch/config/certs/http_ca.crt","-X", "POST","-H", "Content-Type: application/x-ndjson","--data-binary", "@/tmp/books.ndjson"
);
assert result.getExitCode() == 0;

从顶部开始,我们以这种方式向 _bulk 端点发出 POST 请求(并等待刷新完成),使用默认密码以用户 elastic 进行身份验证,接受自动生成的自签名证书(这意味着我们不必禁用 SSL/TLL),有效负载是 /tmp/books.ndjson 文件的内容,该文件在启动时复制到容器中。这样,我们减少了频繁网络调用的需要。假设 books.ndjson 文件已经存在于运行测试的机器上,则总持续时间减少到 58 秒。

少(通常)即是多

在上一步中,我们减少了测试中与网络相关的延迟。现在,让我们解决 CPU 使用率问题。

依赖 @Testcontainers 和 @Container 注释并没有错。但关键是要了解它们的工作原理:当你使用 @Container 注释实例字段时,Testcontainers 将为每个测试启动一个新容器。由于容器启动不是免费的(它需要时间和资源),所以我们要为每个测试支付这笔费用。

在某些情况下(例如,测试系统启动行为时),为每个测试启动一个新容器是必要的,但在我们的例子中不是。我们不必为每个测试启动一个新容器,而是为所有测试保留相同的容器和 Elasticsearch 实例,只要我们在每次测试之前正确重置容器的状态即可。

首先,将容器设为静态字段。接下来,在创建 books 索引(通过定义映射)并用文档填充它之前,如果现有索引来自之前的测试,请删除它。

因此,setupDataInContainer() 应该以类似以下内容开头:

ExecResult result = elasticsearch.execInContainer("curl", "https://localhost:9200/books", "-u", "elastic:changeme","--cacert", "/usr/share/elasticsearch/config/certs/http_ca.crt","-X", "DELETE"
);
// we don't check the result, because the index might not have existed// now we create the index and give it a precise mapping, just like for production
result = elasticsearch.execInContainer("curl", "https://localhost:9200/books", "-u", "elastic:changeme","--cacert", "/usr/share/elasticsearch/config/certs/http_ca.crt","-X", "PUT","-H", "Content-Type: application/json","-d", """{"mappings": {"properties": {"title": { "type": "text" },"description": { "type": "text" },"author": { "type": "text" },"year": { "type": "short" },"publisher": { "type": "text" },"ratings": { "type": "half_float" }}}}"""
);
assert result.getExitCode() == 0;

如你所见,我们可以使用 curl 在容器内执行几乎任何命令。这种方法有两个显著的​​优势:

  • 速度:如果有效负载(如 books.ndjson)已经在容器内,我们就不需要重复复制相同的数据,从而大大缩短了执行时间。
  • 语言独立性:由于 curl 命令与测试的编程语言无关,因此它们更容易理解和维护,即使对于那些可能更熟悉其他技术堆栈的人来说也是如此。

虽然使用原始 curl 调用对于生产代码来说并不理想,但它是测试设置的有效解决方案。尤其是与单个容器启动结合使用时,这种方法将我的测试执行时间缩短到大约 30 秒。

还值得注意的是,在演示项目(分支 data-init)中,目前只有三个集成测试,大约一半的总持续时间花在容器启动上。初始预热后,每个测试大约需要 3 秒钟。因此,再添加三个测试不会使总时间增加一倍至 30 秒,而只会增加大约 9-10 秒。可以在 IDE 中观察到测试执行时间(包括数据初始化):

总结

在这篇文章中,我展示了使用 Elasticsearch 进行集成测试的几项改进:

  • 集成测试可以在不改变测试本身的情况下运行得更快 —— 只需重新考虑数据初始化和容器生命周期管理。
  • Elasticsearch 应该只启动一次,而不是每次测试都启动一次。
  • 当数据尽可能接近 Elasticsearch 并高效传输时,数据初始化效率最高。
  • 虽然减少测试数据集大小是一种明显的优化(这里没有介绍),但有时并不切实际。因此,我们专注于展示技术方法。

总体而言,我们显著缩短了测试套件的持续时间 —— 从 5.5 分钟缩短到 30 秒左右 —— 降低了成本并加快了反馈循环。

在下一篇文章中,我们将探索更先进的技术,以进一步减少 Elasticsearch 集成测试的执行时间。

如果你的案例使用了上述技术之一,或者你在我们的讨论论坛和社区 Slack 频道上有任何疑问,请告诉我们。

准备好自己尝试一下了吗?开始免费试用。

想要获得 Elastic 认证吗?了解下一期 Elasticsearch 工程师培训何时举行!

原文:Faster integration tests with real Elasticsearch - Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886489.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL:联合查询(2)

首先写一个三个表的联合查询 查询所有同学的每门课成绩&#xff0c;及同学的个人信息 1.我们首先要确定使用哪些表 学生表&#xff0c;课程表&#xff0c;成绩表 2.取笛卡尔积 select * from score,student,course; 3. 确定表与表之间的联合条件 select * from score,stud…

Vue3学习笔记(下)

文章目录 Vue3学习笔记&#xff08;下&#xff09;组合式API下的父子通信父传子子传父 模板引用defineExpose()provide和injectvue3新特性 - defineOptionsvue3新特性 - defineModelPiniaPinia异步写法 Vue3学习笔记&#xff08;下&#xff09; 组合式API下的父子通信 父传子…

CNN神经网络

CNN 一 基本概述二 基础知识三 经典案例 今天和大家聊聊人工智能中的神经网络模型相关内容。神经网络内容庞大,篇幅有限本文主要讲述其中的CNN神经网络模型和一些基本的神经网络概念。 一 基本概述 深度学习(Deep Learning)特指基于深层神经网络模型和方法的机器学习。它是在…

MySQL —— MySQL基础概念与常用功能介绍

文章目录 基本概念数据类型数据类型分类 约束主键约束&#xff08;PRIMARY KEY&#xff09;外键约束&#xff08;FOREIGN KEY&#xff09;使用非空约束&#xff08;not null&#xff09;使用唯一性约束&#xff08;UNIQUE&#xff09;使用默认约束&#xff08;DEFAULT&#xff…

如何在react中使用react-monaco-editor渲染出一个编辑器

一、效果展示 二、基于vite配置 1.首先安装react-monaco-editor和monaco-editor包 npm add react-monaco-editor npm i monaco-editor 2.其次创建一个单独的文件&#xff08;此处是tsx、直接用app或者jsx也行&#xff09; import { useState, useEffect } from react impo…

MySQL面试之底层架构与库表设计

华子目录 mysql的底层架构客户端连接服务端连接的本质&#xff0c;连接用完会立马丢弃吗解析器和优化器的作用sql执行前会发生什么客户端的连接池和服务端的连接池数据库的三范式 mysql的底层架构 客户端连接服务端 连接的本质&#xff0c;连接用完会立马丢弃吗 解析器和优化器…

【开源免费】基于Vue和SpringBoot的私人健身与教练预约管理系统(附论文)

本文项目编号 T 618 &#xff0c;文末自助获取源码 \color{red}{T618&#xff0c;文末自助获取源码} T618&#xff0c;文末自助获取源码 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息…

JVM--内存结构

目录 1. PC Register&#xff08;程序计数器&#xff09; 1.1 定义 1.2 工作原理 1.3 特点 1.4 应用 2.虚拟机栈 2.1定义与特性 2.2内存模型 2.3工作原理 2.4异常处理 2.5应用场景 2.6 Slot 复用 2.7 动态链接详解 1. 栈帧与动态链接 动态链接的作用&#xff1a…

手机直连卫星NTN通信初步研究

目录 1、手机直连卫星之序幕 2、卫星NTN及其网络架构 2.1 NTN 2.2 NTN网络架构 3、NTN的3GPP标准化进程 3.1 NTN需要适应的特性 3.2 NTN频段 3.3 NTN的3GPP标准化进程概况 3.4 NTN的3GPP标准化进程的详情 3.4.1 NR-NTN 3.4.1.1 NTN 的无线相关 SI/WI 3.4.1.2…

【SpringBoot】什么是Maven,以及如何配置国内源实现自动获取jar包

前言 &#x1f31f;&#x1f31f;本期讲解关于Maven的了解和如何进行国内源的配置~~~ &#x1f308;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 &#x1f525; 你的点赞就是小编不断更新的最大动力 &#x1f3…

阿里斑马智行 2025届秋招 NLP算法工程师

文章目录 个人情况一面/技术面 1h二面/技术面 1h三面/HR面 20min 个人情况 先说一下个人情况&#xff1a; 学校情况&#xff1a;211本中9硕&#xff0c;本硕学校都一般&#xff0c;本硕都是计算机科班&#xff0c;但研究方向并不是NLP&#xff0c;而是图表示学习论文情况&…

富士施乐DocuContre S2520报打开盖子A,取出纸张。代码077-900故障检修

故障描述: 一台富士施乐DocuContre S2520复印机开机报错:打开盖子A,取出纸张。代码077-900故障,用户之前经常卡纸,卡着、卡着就一直提示打开盖子A,取出纸张了;复印机屏幕提示如下图: 故障检修: 富士施乐DocuContre S2520复印机报打开盖子A,取出纸张。077-900的错误代…

【Ubuntu24.04】VirtualBox安装ubuntu-live-server24.04

目录 0 背景1 下载镜像2 安装虚拟机3 安装UbuntuServer24.044 配置基本环境5 总结0 背景 有了远程连接工具之后,似乎作为服务器的Ubuntu24.04桌面版有点备受冷落了,桌面版的Ubuntu24.04的优势是图形化桌面,是作为一个日常工作的系统来用的,就像Windows,如果要作为服务器来…

01.防火墙概述

防火墙概述 防火墙概述1. 防火墙的分类2. Linux 防火墙的基本认识3. netfilter 中五个勾子函数和报文流向 防火墙概述 防火墙&#xff08; FireWall &#xff09;&#xff1a;隔离功能&#xff0c;工作在网络或主机边缘&#xff0c;对进出网络或主机的数据包基于一定的 规则检…

STM32设计井下瓦斯检测联网WIFI加Zigbee多路节点协调器传输

目录 目录 前言 一、本设计主要实现哪些很“开门”功能&#xff1f; 二、电路设计原理图 1.电路图采用Altium Designer进行设计&#xff1a; 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 本系统基于STM32微控制器和Zigbee无线通信技术&#xff0c;设计了…

Vue 中的透传,插槽,依赖注入

1. 透传attributes 在组件上使用透传attribute&#xff1a; 当你在父组件中使用子组件时&#xff0c;你可以添加一些attribute到子组件上&#xff0c;即使这些attribute没有在子组件的props中声明。 父组件&#xff1a; <!-- 父组件&#xff0c;例如 ParentComponent.vue…

Figma汉化:提升设计效率,降低沟通成本

在UI设计领域&#xff0c;Figma因其强大的功能而广受欢迎&#xff0c;但全英文界面对于国内设计师来说是一个不小的挑战。幸运的是&#xff0c;通过Figma汉化插件&#xff0c;我们可以克服语言障碍。以下是两种获取和安装Figma汉化插件的方法&#xff0c;旨在帮助国内的UI设计师…

SpringBoot项目实现登录——集成JWT令牌和验证码的登录业务

目录 前言 一、初步认识JWT令牌 二、利用JWT令牌实现登录功能 1.配置登录拦截器&#xff1a; 2.实现后端的登录接口 三、在登录中添加验证码功能 点此查看&#xff1a;完整的&#xff0c;附带验证码和JWT令牌验证功能的登录流程&#xff0c;完整代码 前言 在我们的项目…

网络常用特殊地址-127.0.0.1

借用Medium博客的一张图 经常在问题解答群里留意到如下关于127.0.0.1的消息 ”如果单机版&#xff0c;不需要配置IP&#xff0c;所有配置IP的地方都写死127.0.0.1就可以” “ip: 根据实际情况填写&#xff08;在 xxx-init.conf 里可以给一个默认值 127.0.0.1 &#xff0c;方便…

【模拟仿真】基于区间观测器的故障诊断与容错控制

摘要 本文提出了一种基于区间观测器的故障诊断与容错控制方法。该方法通过构建区间观测器&#xff0c;实现对系统状态的上下边界估计&#xff0c;从而在存在不确定性和外部噪声的情况下进行高效的故障诊断。进一步地&#xff0c;本文设计了一种容错控制策略&#xff0c;以保证…