Elasticsearch 与 OpenSearch:揭开性能差距

作者:George Kobar, Ugo Sangiorgi

 

对于任何依赖快速、准确搜索数据的组织来说,强大、快速且高效的搜索引擎是至关重要的元素。 对于开发人员和架构师来说,选择正确的搜索平台可以极大地影响你的组织提供快速且相关结果的能力。 在我们全面的性能测试中,Elasticsearch 成为明智的选择。 Elasticsearch 比 OpenSearch 快 40%-140%,同时使用更少的计算资源。

在本文中,我们将在六个主要领域对 Elasticsearch 8.7 和 OpenSearch 2.7(测试时两者的最新版本)进行性能比较:文本查询、排序、日期直方图、范围和术语,包括资源利用率。 我们的目标是提供公平、实用的技术见解,帮助你做出明智的决策,无论你是优化现有系统还是设计新系统。 此比较还旨在清楚地突出 Elasticsearch 和 OpenSearch 之间的性能差异,表明两者完全不同。

我们将首先回顾性能比较的结果,然后是我们的测试方法和测试环境。

结果

使用 t-test 对性能比较结果(重点关注请求的 p90(第 90 个百分位数))进行交叉验证,以确保两种解决方案之间的延迟测量存在统计差异。 针对每种查询类型计算相对变化(以百分比表示)。 我们还使用箱线(box plot)图显示 100% 请求的延迟分布,箱线图显示最小值、最大值、中值、平均值和异常值。 实际的方框显示了下四分位数和上四分位数,其中分别有 25% 和 75% 的观测值落在其中。通过这种方式,我们可以了解这些值的实际分布情况。

文本查询 — 速度提高 76%

Show me all data that has jane@doe.com.

 

Elasticsearch 表现出了显着的领先优势,执行文本查询的速度比 OpenSearch 快 76%。

文本查询是全文搜索的基础和关键,而全文搜索是 Elasticsearch 的主要功能。 文本字段查询允许用户搜索文本数据中的特定短语、单个单词甚至单词的一部分。 用户能够通过文本数据执行复杂的搜索 —— 它增强了整体搜索体验并支持广泛的应用程序和解决方案。

排序

"Show me the most expensive products first."

在对简单文本查询结果进行排序时,Elasticsearch 的性能比 OpenSearch 高出惊人的 140%。 此外,Elasticsearch 的时间戳、关键字和数字排序查询的执行时间分别加快了 24%、97% 和 53%。

排序是按特定顺序(例如字母顺序、数字顺序或时间顺序)排列数据的过程。 排序对于基于特定条件的搜索结果非常有用,可确保向客户呈现最相关的结果。 这是增强用户体验并提高搜索过程整体效率的重要功能。

日期直方图

Show me a bar chart ordered in time for all the data.

对于日期直方图聚合,Elasticsearch 比 OpenSearch 快 81%,展示了其强大能力。 处理时间的加速有利于根据时间序列数据生成有序条形图。

日期直方图聚合可用于通过将基于时间的数据划分为间隔或存储桶来聚合和分析数据。 此功能使用户能够可视化并更好地了解一段时间内的趋势、模式和异常情况。

范围查询

Show me just the price of your products between 0-25.

Elasticsearch 在范围查询方面快了 40%,在范围聚合方面快了 68%。

在测试或关键字字段上搜索范围查询是性能和可扩展性的另一个核心参数。 范围查询对于根据给定字段中的特定值范围过滤搜索结果非常有用。 此功能允许用户缩小搜索结果范围并快速找到更多相关信息。

更快的构面创建至关重要,因为它涉及根据特定属性将数据分类为组(分面),然后在每个组内执行汇总操作。 此过程通过提供电子商务应用程序中经常使用的数据的结构化视图,使分析、过滤和可视化变得更加容易。

术语查询

Group the data by what products were bought together.

 

Elasticsearch 展示了其优越性,与 OpenSearch 相比,术语查询速度快 108%,复合术语聚合速度快 103%。 这些优势使 Elasticsearch 成为涉及数据分组和过滤的任务的更有吸引力的选择。

Elasticsearch 中的 “Significant Terms” 聚合会自动排除常见或不感兴趣的术语,例如停用词(“and”、“the”、“a”)或结果中索引中频繁出现的术语。 这是基于对索引数据中的术语频率和分布的统计分析。

资源利用率

Elasticsearch 不仅在各种与搜索相关的任务中优于 OpenSearch,而且还被证明具有更高的资源效率。 默认情况下,OpenSearch 对数据流使用 best_speed 编解码器(优先考虑查询速度而不是存储效率),而 Elasticsearch 使用 best_compression。 使用默认的开箱即用设置,Elasticsearch 使用的磁盘空间减少了 37%,并且当在两者上使用 best_compression(用于此基准测试的编解码器)时,Elasticsearch 的空间效率仍然提高了 13%。

时间序列数据流 (TSDS)

我们更进一步,将数据重新索引到时间序列数据流中,从而进一步压缩数据 - 平均文档大小从 218 kb 下降到 124 kb,减少了 54.8%,如下表所示。

Average Document Size

Difference from OpenSearch

OpenSearch Datastream

249 kb

-

Elasticsearch Datastream

218 kb

13%

Elasticsearch TSDS

124 kb

54.8%

第三方验证

我们的性能测试方法和结果已经过 TechTarget 的 Enterprise Strategy Group(一家受人尊敬的第三方供应商)的独立验证。 Tech Target 企业战略组 ESG 的验证增加了我们的调查结果的可信度和公正性,确保测试方法和后续结果保持最高的准确性和完整性标准。 他们的认可重申了我们比较的稳健性和可靠性,使你能够根据我们的基准测试结果做出明智的决定。

测试方法

我们如何得出这些结果

本着公平、精确比较 Elasticsearch 和 OpenSearch 的精神,我们创建了两个等效的 5 节点集群,每个集群配备 32GB 内存、8 个 CPU 核心、每个节点 300GB 磁盘。 对于每个产品,我们提取随机生成的相同 1TB 日志文件,其中包含 22 个字段(更多详细信息如下)。

测试是在单独的 Kubernetes 节点池中完成的,确保每个产品都有专用资源。 我们遵循 Elasticsearch 和 OpenSearch 的最佳实践,包括在发起查询之前强制合并索引以及防止缓存请求影响的策略,从而确保测试结果的完整性。

为了保证 Elasticsearch 和 OpenSearch 比较的透明度,我们将完整的基准测试流程作为开源项目提供。 可在此处访问的存储库包括用于配置 Kubernetes 集群的 Terraform 配置以及用于创建 Elasticsearch 和 OpenSearch 集群的 Kubernetes 清单。 此外,存储库中还提供了基准测试中使用的查询。

你不仅可以测试自己,还可以使用此存储库进行自己的研究并提高 Elasticsearch 项目的性能。

我们测试了什么

我们在 Elasticsearch 和 OpenSearch 之间进行的测试是在关键使用领域进行的,包括:

  • 搜索 - 具有典型搜索栏的电子商务用例
  • 可观察性 —— 大量系统遥测数据,例如日志、指标和应用程序跟踪
  • 安全——安全事件实时分析

即将进行的比较将深入分析每个平台在这些领域的表现,包括文本查询、排序、数据直方图、范围和术语。

数据集和摄取

使用此开源工具生成了 1TB 数据集,然后将其上传到 GCP 存储桶。 Logstash® 用于将 GCP 存储桶中的数据集提取到 Elasticsearch 和 OpenSearch 中。 存储库中还包含生成类似数据集的说明,以防你想要复制基准测试。

各字段组成的所有日志如下表所示。 除 @timestamp 之外,所有事件的值都是随机的,@timestamp 是每个事件连续且唯一的。

Field

Value

@timestamp

Jan 3, 2023 @ 18:59:58.000

agent.id

baac7358-a449-4c36-bf0f-befb211f1d38

agent.name

fernswisher

agent.type

filebeat

agent.version8.8.0
aws.cloudwatch.ingestion_time2023-05-01T20:49:30.820Z
aws.cloudwatch.log_group/var/log/messages
aws.cloudwatch.log_streamnorthcurtain
cloud.regionap-southeast-3
data_stream.datasetbenchmarks
data_stream.namespaceday3
data_stream.typelogs
event.datasetgeneric
event.idgravecrane
input.typeaws-cloudwatch
log.file.path/var/log/messages/northcurtain
message2023-05-01T20:49:30.820Z May 01 20:49:30 ip-106...
meta.file2023-01-03/1682974095-gotext.ndjson.gz
metrics.size408
metrics.tmin238
process.namesystemd
tagspreserve_original_event

基准测试

总共考虑了五个关键领域的 35 种查询类型,总计 387,000 个请求。 在 100 个预热查询之后,每个查询类型执行 100 次,每个查询重复该过程 50 次。

Rally 是 Elastic® 开发的开源工具,用于 Elasticsearch 和 Elastic Stack 的其他组件的基准测试和性能测试。 它允许用户针对 Elasticsearch 集群模拟各种类型的工作负载,例如索引和搜索,并以可重现的方式测量其性能。 虽然 Rally 是由 Elastic 开发的,主要是为了对 Elasticsearch 进行基准测试而设计的,但它是一个灵活的工具,可以适应与 OpenSearch 一起使用。

Elastic 每天运行基准测试,以确保 Elasticsearch 中的任何新代码的性能与昨天一样或更好。 我们还使用自己的机器学习来识别性能异常或资源利用效率低下。 我们以透明和公开的方式提供性能和大小测试,以使使用我们产品的每个人受益。 值得注意的是,其他厂商不提供此功能,这可以帮助用户随着时间的推移监控他们感兴趣的变化。

结论:Elasticsearch — 明显的胜利者

考虑到各种测试的结果,很明显 Elasticsearch 始终优于 OpenSearch。 无论是处理简单查询、对数据排序、生成直方图、处理术语或范围查询,甚至是资源优化,Elasticsearch 都处于领先地位。

在选择搜索引擎平台时,企业应优先考虑速度、效率和低资源利用率 —— 这些都是 Elasticsearch 所擅长的属性。 这使得它成为依赖快速准确搜索结果的组织的一个令人信服的选择。 无论你是对搜索结果进行排序的电子商务平台、识别威胁的安全分析师,还是仅仅需要有效观察关键应用程序,Elasticsearch 都在此次比较中成为明显的领导者。

准备好亲自测试 Elasticsearch 了吗?

开始免费试用 Elastic Cloud 14 天,了解 Elasticsearch 性能如何帮助你完成项目。

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/32323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv实战项目 实现手势跟踪并返回位置信息(封装调用)

OpenCV 是一个基于 Apache2.0 许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。 需要提前准备opencv 和 mediapipe库 pip --default-timeout5000 install -i https://pypi.tuna.tsi…

拂袖一挥,zipfile秒列zip包内容

使用wxpython列出文件夹中的zip文件及内容 最近在做一个文件管理的小工具,需要列出选择的文件夹下的所有zip压缩文件,并在点击某个zip文件时能够显示其中的内容。为此我使用了wxpython来实现这个功能。 1. 导入需要的模块 首先导入程序需要的模块: import wx import os imp…

设计模式之工厂模式

简单工厂 由一个工厂生产多个产品。 一般工厂 每个产品都有一个单独的工厂专门生产。 抽象工厂 不同工厂生产不同种类的产品,每个工厂生产的同类产品又可以再次分类。比如一个鼠标工厂和一个键盘工厂,他们可以为不同的品牌生产鼠标和键盘。

CTF流量题解http1.pcapng

使用Wireshark工具打开流量文件http1.pcapng,如下图所示。 在过滤检索栏输入http,wireshark自动进行过滤。 选中其中一条记录后,wireshark 下方显示若干信息。 Frame 81: 925 bytes on wire (7400 bits), 925 bytes captured (7400 bits) …

从数据仓库到数据结构:数据架构的演变之路

在上个世纪,从电子商务巨头到医疗服务机构和政府部门,数据已成为每家组织的生命线。有效地收集和管理这些数据可以为组织提供宝贵的洞察力,以帮助决策,然而这是一项艰巨的任务。 尽管数据很重要,但CIOinsight声称&…

DL_20无线串口模块

今日介绍一块最近入手的无线串口模块,40r左右,精简好用,虽然感觉配置波特率啥的并不智能化,但250米的通信距离还是很顶的!它的升级版甚至有1000米的通信距离(空旷地带) 这篇文章不多讲其余话&am…

【C++】开源:abseil-cpp基础组件库配置使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍abseil-cpp基础组件库配置使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&#…

什么,你说你不会通过jdbc一次性创建10个数据库???

小朋友你是否有很多问号???????????? 1、在资源文件中建一个文件,填入连接数据库的基本信息。 2、通过反射拿到资源文件。…

数据库新闻速递 -- POSTGRESQL 正在蚕食数据库市场 (翻译)

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请加 liuaustin3微信号 ,在新加的朋友会分到3群&#xff…

机器学习笔记 - 使用 YOLOv5、O​​penCV、Python 和 C++ 检测物体

一、YOLO v5简述 YOLO v5虽然已经不是最先进的对象检测器,但是YOLOv5 使用了一个简单的卷积神经网络 CNN架构(相对YOLO v8来讲,不过v8精度是更高了一些),更易理解。这里主要介绍如何轻松使用 YOLO v5来识别图像中的对象。将使用 OpenCV、Python 和 C++ 来加载和调用我们的…

K8S系列文章之 一键部署K8S环境

部署的原理是基于自动化部署工具 Ansible 实现的,需要提前安装Ansible 并配置下主机节点环境 1. 安装 Ansible 首先ansible基于python2.X 环境,默认centos都已经安装好了python2环境 // 最好更新下库 // yum update yum install -y epel-release yum i…

flask使用cookie (设置cookie与查看cookie内容)

1.flask包cookie的使用 设置cookie app.route(/set_cookie) def set_cookie():resp make_response(Setting cookie)resp.set_cookie(username, John)return resp查看cookie: app.route(/get_cookie) def get_cookie():username request.cookies.get(username)return Welco…

Spring系列四:AOP切面编程

文章目录 💗AOP-官方文档🍝AOP 讲解🍝AOP APIs 💗动态代理🍝初始动态代理🍝动态代理深入🍝AOP问题提出📗使用土方法解决📗 对土方法解耦-开发最简单的AOP类📗…

木马免杀(篇二)shellcode 学习

木马免杀(篇二)shellcode 学习 —— shellcode介绍 shellcode 是一段利用软件漏洞进行执行的机器码, 通常用汇编语言编写并被翻译为十六进制操作码,因常被攻击者用于获取系统的命令终端shell 接口,所以被称为 shellc…

并发编程面试题2

并发编程面试题2 一、AQS高频问题: 1.1 AQS是什么? AQS就是一个抽象队列同步器,abstract queued sychronizer,本质就是一个抽象类。 AQS中有一个核心属性state,其次还有一个双向链表以及一个单项链表。 首先state…

【Ubuntu】安装docker,docker compose 以及部署一个docker应用

大家好!在过去,已经分享了很多有关通过Docker部署应用的内容。今天,我将为大家详细介绍如何在Ubuntu系统上部署最新的Docker平台。 Docker是什么 Docker是一个开源的容器化平台,它允许您将应用程序及其所有依赖项打包到称为容器…

CH343 USB转串口芯片资料下载(合集)

1、产品手册 CH343DS1.PDF - 南京沁恒微电子股份有限公司CH343技术手册,USB转单串口芯片,支持最高6M波特率,串口信号支持1.8~5V,内置晶振。CH343使用系统集成的CDC驱动或厂商驱动。厂商驱动支持完整串口功能和更高波特率。https:…

基于STM32微控制器的物联网(IoT)节点设计与实现

基于STM32微控制器的物联网(IoT)节点的设计和实现。我们讨论物联网节点的基本概念和功能,并详细介绍了STM32微控制器的特点和优势。然后,我们将探讨如何使用STM32开发环境和相关的硬件模块来设计和实现一个完整的物联网节点。最后,我们将提供一个示例代码,展示如何在STM3…

【24择校指南】南京大学计算机考研考情分析

南京大学(A) 考研难度(☆☆☆☆☆) 内容:23考情概况(拟录取和复试分数人数统计)、院校概况、23初试科目、23复试详情、参考书目、各科目考情分析、各专业考情分析。 正文2178字,预计阅读:6分…

Mr. Cappuccino的第59杯咖啡——简单手写SpringIOC框架

简单手写SpringIOC框架 环境搭建基于XML方式项目结构项目代码运行结果 基于注解方式项目结构项目代码运行结果 简单手写SpringIOC框架核心原理基于XML方式原理项目结构项目代码运行结果 基于注解方式原理项目结构项目代码运行结果 环境搭建 基于XML方式 项目结构 项目代码 p…