Elasticsearch:调整搜索速度

在我之前的文章 “Elasticsearch:如何提高查询性能” 及 “Elasticsearch:提升 Elasticsearch 性能” 里,我详细描述了如何提高搜索的性能。在今天的文章里,我从另外一个视角来描述如何调整搜索的速度。希望对大家有所帮助!

为文件系统缓存提供内存

Elasticsearch 严重依赖文件系统缓存来提高搜索速度。 一般来说,你应该确保至少一半的可用内存用于文件系统缓存,以便 Elasticsearch 可以将索引的热区域保留在物理内存中。

在 Linux 上使用适度的预读值来避免页面缓存抖动

搜索可能会导致大量随机读取 I/O。 当底层块设备具有较高的预读值时,可能会执行大量不必要的读取 I/O,特别是当使用内存映射访问文件时(请参阅存储类型)。

大多数 Linux 发行版对单个普通设备使用 128KiB 的合理预读值,但是,当使用软件 raid、LVM 或 dm-crypt 时,生成的块设备(支持 Elasticsearch path.data)最终可能会具有非常大的预读值(在 几个 MiB 的范围)。 这通常会导致严重的页面(文件系统)缓存抖动,从而对搜索(或更新)性能产生不利影响。

你可以使用 lsblk -o NAME,RA,MOUNTPOINT,TYPE,SIZE 检查当前值(以 KiB 为单位)。 有关如何更改此值的信息,请参阅发行版的文档(例如,使用 udev 规则在重新启动后保持不变,或通过 blockdev --setra 作为瞬态设置)。 我们建议预读值为 128KiB。

警告blockdev 期望值以 512 字节扇区为单位,而 lsblk 报告值以 KiB 为单位。 例如,要将 /dev/nvme0n1 的预读临时设置为 128KiB,请指定 blockdev --setra 256 /dev/nvme0n1。

使用更快的硬件

如果你的搜索受 I/O 限制,请考虑增加文件系统缓存的大小(见上文)或使用更快的存储。 每次搜索都涉及跨多个文件的顺序和随机读取的混合,并且每个分片上可能同时运行许多搜索,因此 SSD 驱动器的性能往往比旋转磁盘更好。

直连(本地)存储通常比远程存储性能更好,因为它更易于配置并避免通信开销。 通过仔细调整,有时使用远程存储也可以获得可接受的性能。 使用实际工作负载对你的系统进行基准测试,以确定任何调整参数的效果。 如果你无法达到预期的性能,请与存储系统的供应商合作找出问题。

如果你的搜索受 CPU 限制,请考虑使用更多更快的 CPU。

文档建模

应该对文档进行建模,以便尽可能减少搜索时间操作。

特别是应该避免 joins。 nested 可以使查询慢几倍,而父子关系可以使查询慢数百倍。 因此,如果可以通过非规范化文档来回答相同的问题,而无需 joins,则可以预期显着的加速。

搜索尽可能少的字段

query_string 或 multi_match 查询的目标字段越多,速度就越慢。 提高多个字段搜索速度的常用技术是在索引时将它们的值复制到单个字段中,然后在搜索时使用该字段。 这可以通过映射的 copy_to 指令来自动化,而无需更改文档的源。 下面是一个包含电影的索引示例,该索引通过将两个值索引到 name_and_plot 字段来优化搜索电影名称和情节的查询。

PUT movies
{"mappings": {"properties": {"name_and_plot": {"type": "text"},"name": {"type": "text","copy_to": "name_and_plot"},"plot": {"type": "text","copy_to": "name_and_plot"}}}
}

索引前数据

你应该利用查询中的模式来优化数据索引方式。 例如,如果你的所有文档都有 price 字段,并且大多数查询在固定的范围列表上运行 range 聚合,则可以通过将range 预先索引到索引中并使用 terms 聚合来加快聚合速度。

例如,如果文档如下所示:

PUT index/_doc/1
{"designation": "spoon","price": 13
}

搜索请求如下所示:

GET index/_search
{"aggs": {"price_ranges": {"range": {"field": "price","ranges": [{ "to": 10 },{ "from": 10, "to": 100 },{ "from": 100 }]}}}
}

然后可以在索引时通过 price_range 字段来丰富文档,该字段应该映射为 keyword:

PUT index
{"mappings": {"properties": {"price_range": {"type": "keyword"}}}
}PUT index/_doc/1
{"designation": "spoon","price": 13,"price_range": "10-100"
}

然后搜索请求可以聚合这个新字段,而不是在 price 字段上运行 range 聚合。

GET index/_search
{"aggs": {"price_ranges": {"terms": {"field": "price_range"}}}
}

考虑将映射标识符作为关键字

并非所有数值数据都应映射为 numeric 字段数据类型。 Elasticsearch 优化 range 查询的数字字段,例如 integer 或 long。 但是,keyword 字段更适合 term 和其他term-level查询。

ISBN 或产品 ID 等标识符很少在 range 查询中使用。 然而,它们通常是使用 term-level 级查询来检索的。

如果出现以下情况,请考虑将数字标识符映射为 keyword:

  • 你不打算使用 range 查询来搜索标识符数据。
  • 快速检索很重要。 keyword 字段上的 term 查询搜索通常比数字字段上的术语搜索更快。

如果你不确定使用哪个,可以使用 multi-field 将数据映射为 keyword 和数字数据类型。

避免脚本

如果可能,请避免使用基于脚本的排序、聚合中的脚本和 script_score 查询。 请参阅 Scripts、caching 和 search speed。

搜索四舍五入的日期

对使用 now 的日期字段的查询通常不可缓存,因为匹配的范围一直在变化。 然而,就用户体验而言,切换到四舍五入日期通常是可以接受的,并且具有更好地利用查询缓存的好处。

例如下面的查询:

PUT index/_doc/1
{"my_date": "2016-05-11T16:30:55.328Z"
}GET index/_search
{"query": {"constant_score": {"filter": {"range": {"my_date": {"gte": "now-1h","lte": "now"}}}}}
}

可以替换为以下查询:

GET index/_search
{"query": {"constant_score": {"filter": {"range": {"my_date": {"gte": "now-1h/m","lte": "now/m"}}}}}
}

在这种情况下,我们四舍五入到分钟,因此如果当前时间是 16:31:29,范围查询将匹配 my_date 字段值在 15:31:00 和 16:31:59 之间的所有内容。 如果多个用户在同一分钟内运行包含此范围的查询,则查询缓存可以帮助加快速度。 用于舍入的间隔越长,查询缓存的帮助就越大,但请注意,过于激进的舍入也可能会损害用户体验。

注意:为了能够利用查询缓存,将范围分割为大的可缓存部分和较小的不可缓存部分可能很诱人,如下所示:

GET index/_search
{"query": {"constant_score": {"filter": {"bool": {"should": [{"range": {"my_date": {"gte": "now-1h","lte": "now-1h/m"}}},{"range": {"my_date": {"gt": "now-1h/m","lt": "now/m"}}},{"range": {"my_date": {"gte": "now/m","lte": "now"}}}]}}}}
}

然而,这种做法在某些情况下可能会使查询运行速度变慢,因为 bool 查询引入的开销可能会抵消更好地利用查询缓存所节省的成本。

强制合并只读索引

只读索引可能会受益于合并到单个段。 基于时间的索引通常就是这种情况:只有当前时间范围的索引正在获取新文档,而旧索引是只读的。 已强制合并为单个分段的分片可以使用更简单、更高效的数据结构来执行搜索。

重要:不要强制合并你仍在写入或将来将再次写入的索引。 相反,依靠自动后台合并进程根据需要执行合并,以保持索引平稳运行。 如果你继续写入强制合并索引,那么它的性能可能会变得更糟。

热身全局序数

全局序数(global ordinals)是一种用于优化聚合性能的数据结构。 它们是惰性计算的,并作为字段数据缓存的一部分存储在 JVM 堆中。 对于大量用于分桶聚合的字段,你可以告诉 Elasticsearch 在收到请求之前构建并缓存全局序号。 应该谨慎执行此操作,因为它会增加堆使用量并使刷新时间更长。 通过设置 eager global ordinals 映射参数,可以在现有映射上动态更新该选项:

PUT index
{"mappings": {"properties": {"foo": {"type": "keyword","eager_global_ordinals": true}}}
}

预热文件系统缓存

如果运行 Elasticsearch 的机器重新启动,文件系统缓存将为空,因此操作系统需要一些时间才能将索引的热区域加载到内存中,以便搜索操作快速。 你可以使用 index.store.preload 设置显式告诉操作系统哪些文件应根据文件扩展名立即加载到内存中。

警告:如果文件系统缓存不够大,无法容纳所有数据,则在太多索引或太多文件上急切地将数据加载到文件系统缓存中将使搜索速度变慢。 谨慎使用。

使用索引排序来加速连词

索引排序(index sorting)很有用,可以使连接 (conjunctions) 速度更快,但代价是索引速度稍慢。 请在索引排序文档中相关信息。

使用 preference 项来优化缓存利用率

有多种缓存可以帮助提高搜索性能,例如文件系统缓存、请求缓存或查询缓存。 然而,所有这些缓存都是在节点级别维护的,这意味着如果你连续两次运行相同的请求,有 1 个或更多副本并使用默认路由算法 round-robin,那么这两个请求将转到不同的分片副本 ,阻止节点级缓存发挥作用。

由于搜索应用程序的用户通常会相继运行类似的请求,例如为了分析索引的较小子集,因此使用标识当前用户或会话的 preference 项值可以帮助优化缓存的使用。

副本可能有助于提高吞吐量,但并不总是如此

除了提高弹性之外,副本还可以帮助提高吞吐量。 例如,如果你有一个单分片索引和三个节点,则需要将副本数设置为 2,以便总共拥有 3 个分片,以便利用所有节点。

现在假设你有一个 2 分片(2-shard)索引和两个节点。 在一种情况下,副本数为 0,这意味着每个节点拥有一个分片。 在第二种情况下,副本数为 1,这意味着每个节点有两个分片。 哪种设置在搜索性能方面表现最佳? 通常,每个节点总共具有较少分片的设置会表现更好。 原因是它为每个分片提供了更大份额的可用文件系统缓存,并且文件系统缓存可能是 Elasticsearch 的第一大性能因素。 同时,请注意,如果单个节点发生故障,没有副本的设置可能会失败,因此在吞吐量和可用性之间需要进行权衡。

那么正确的副本数量是多少? 如果您的集群总共有 num_nodes 个节点、num_primaries 个主分片,并且你希望能够一次最多处理 max_failures 个节点故障,那么适合你的副本数量是 max(max_failures, ceil(num_nodes / num_primaries) - 1).

使用搜索分析器调整你的查询

Profile API 提供有关查询和聚合的每个组件如何影响处理请求所需时间的详细信息。

Kibana 中的 Search Profiler 可以轻松导航和分析分析结果,并让你深入了解如何调整查询以提高性能并减少负载。

由于 Profile API 本身会显着增加查询开销,因此此信息最好用于了解各种查询组件的相对成本。 它不提供实际处理时间的可靠测量。

使用 index_phrases 加快短语查询速度

Text 字段有一个索引 2-shingles 的 index_phrases 选项,并由查询解析器自动利用来运行没有倾斜的短语查询。 如果你的用例涉及运行大量短语查询,这可以显着加快查询速度。

使用 constant_keyword 来加速过滤

一般规则是过滤器的成本主要是匹配文档数量的函数。 想象一下你有一个包含 cycles 的索引。 自行车 (bicycle) 数量很多,许多搜索都会对 cycle_type: bycycle 进行过滤。 不幸的是,这种非常常见的过滤器也非常昂贵,因为它与大多数文档匹配。 有一种简单的方法可以避免运行此过滤器:将 bycycles 移动到自己的索引并通过搜索此索引来过滤自行车,而不是向查询添加过滤器。

不幸的是,这可能会使客户端逻辑变得棘手,而这正是 constant_keyword 可以发挥作用的地方。 通过将 cycle_type 映射为 constant_keyword,并在包含 bicycles 的索引上使用值 bicycle,客户端可以继续运行与在整体索引上运行完全相同的查询,并且 Elasticsearch 将通过忽略 cycle_type 上的过滤器来对 bicycles 索引执行正确的操作,如果该值是 bycycle,否则不返回任何命中。

映射可能如下所示:

PUT bicycles
{"mappings": {"properties": {"cycle_type": {"type": "constant_keyword","value": "bicycle"},"name": {"type": "text"}}}
}PUT other_cycles
{"mappings": {"properties": {"cycle_type": {"type": "keyword"},"name": {"type": "text"}}}
}

我们将索引一分为二:一个仅包含 bicycles,另一个包含其他 cycles:独轮车、三轮车等。然后在搜索时,我们需要搜索这两个索引,但不需要修改查询 。

GET bicycles,other_cycles/_search
{"query": {"bool": {"must": {"match": {"description": "dutch"}},"filter": {"term": {"cycle_type": "bicycle"}}}}
}

在 bicycles 索引上,Elasticsearch 将简单地忽略 cycle_type 过滤器并将搜索请求重写为以下请求:

GET bicycles,other_cycles/_search
{"query": {"match": {"description": "dutch"}}
}

在 other_cycles 索引上,Elasticsearch 会很快发现 cycle_type 字段的术语字典中不存在 bicycle 并返回没有命中的搜索响应。

通过将通用值放入专用索引中,这是一种降低查询成本的强大方法。 这个想法也可以跨多个领域组合:例如,如果你跟踪每个自行车的颜色并且你的 bicycles 索引最终包含大多数黑色自行车,你可以将其分为 bicycles-black 索引和 bicycles-other-colors 索引 。

此优化并不严格需要 constant_keyword:还可以更新客户端逻辑,以便根据过滤器将查询路由到相关索引。 然而,constant_keyword 使其变得透明,并允许将搜索请求与索引拓扑解耦,以换取很少的开销。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/751046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue的早餐店点餐系统(源码+论文)

作者主页:Java程序员老张 主要内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:…

Python基础综合案例-数据可视化

一、数据可视化 - 折线图可视化 1.1、json数据格式 """ 演示JSON数据和Python字典的相互转换 """ import json # 准备列表,列表内每一个元素都是字典,将其转换为JSON data [{"name": "张大山", &quo…

dp入门:从暴力dfs 到 dp

本篇为小金鱼大佬视频的学习笔记,原视频链接:https://www.bilibili.com/video/BV1r84y1379W?vd_source726e10ea5b787a300ceada715f64b4bf 基础概念 暴力dfs很多时候仅能过部分测试点,要想将其优化,一般以 dfs -> 记忆化搜索 …

JavaEE—— HTTP协议(上篇)

文章目录 一、认识什么是 HTTP 协议二、HTTP 抓包工具1.了解使用哪种工具2.了解抓包工具抓包的原理3.简单使用抓包工具 三、解释 HTTP 中的报文格式1.认识 URL2. 认识 HTTP 请求解释首行 "方法"解释 请求头(header)空行body 3、总结 一、认识什么是 HTTP 协议 HTTP …

PS学习 - 抠图-通道-主题颜色和背景颜色不能相近

抠出蝴蝶 1.通道抠图 套索工具 这里需要圈住你要的,注意尽量小点 ctrl j 复制 然后去掉背景 点击通道 找到明暗对比最大的通道,这里我理解为颜色反差最大的那个,突出你要抠的东西 搜了下说是一般为蓝色 复制通道 ctrll调出色阶 通过移…

一文总结python的异常数据处理示例

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

springboot278基于JavaWeb的鲜牛奶订购系统的设计与实现

鲜牛奶订购系统的设计与实现 摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统鲜牛奶订购信息管理难度大&…

VMwareWorkstation16与Ubuntu 22.04.6 LTS下载与安装

一、准备工作 VMware Workstation Pro 16官网下载: https://customerconnect.vmware.com/cn/downloads/info/slug/desktop_end_user_computing/vmware_workstation_pro/16_0。下载需要账号登录。 二、安装 双击exe文件稍等一会会弹出安装程序,如图 这…

Airtest-Selenium升级兼容Selenium 4.0,给你全新体验!

一、前言 在上期更新推文中提到,我们Airtest-Selenium更新到了1.0.6版本,新增支持Selenium4.0的语法,那么我们来看一下Airtest-Selenium更新后有什么新的内容吧~ 二、selenium 4.0有什么新功能 selenium4.0最主要的还是定位元素方法的更新…

力扣--最小覆盖子串--双端队列+滑动窗口

滑动窗口思路(双端队列实现): 可以参考一下:力扣hot8---滑动窗口-CSDN博客以及力扣hot9---滑动窗口-CSDN博客。 使用滑动窗口有以下几个步骤:初始化双端队列(将s的前t_len个元素入队,此时检验是…

spring源码分析-事务的底层源码-1

这里写自定义目录标题 spring事务的源码分析阅读spring事务源码的前置知识JDBC的事务spring当中和事务相关的对象spring应用程序编码spring事务的源码如何开始研究spring源码当中如何代理bean spring事务的源码分析 最近在研究seata;看了一下spring当中的事务有一点…

第十三届蓝桥杯(C/C++ 大学B组)

目录 试题 A: 九进制转十进制 试题 B: 顺子日期 试题 C: 刷题统计 试题 D: 修剪灌木 试题 E: X 进制减法 试题 F: 统计子矩阵 试题 G: 积木画 试题 H: 扫雷 试题 I: 李白打酒加强版 试题 J: 砍竹子 试题 A: 九进制转十进制 九进制正整数 ( 2022 )转换成十进制等于多…

Hypermesh碰撞安全之安全带缠绕建模

进入安全带建模(Analysis→safety→belt routing) ①肩带的创建 注:end types: 表示2D和1D单元的过渡方式 ②腰带的创建 ③修改接触系数

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:Tabs)

通过页签进行内容视图切换的容器组件,每个页签对应一个内容视图。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 该组件从API Version 11开始默认支持安全区避让特性(默认值为&#x…

【老旧小区用电安全谁能管?】安科瑞智慧用电安全管理系统解决方案

行业背景 电气火灾指由电气故障引发的火灾。每年以30%的比例高居各类火灾原因之首。以50%到80%的比例高居重特大火灾之首。已成为业界重点关注的对象并为此进行着孜孜不倦的努力。 国务院安委会也于2017年5月至2020年4月年开展了为期3年的电气火灾综合治理工作。在各界努力的…

HJ212协议C#代码解析实现

HJ212协议C#代码解析实现 HJ212协议是环保中一个非常重要的标准协议(字符串协议),之前写了两篇C HJ212协议解析的相关博文: 环保 HJ212协议解析基于Qt5.14.2的HJ212 TCP服务端接收解析入库程序 最近在学习C#,所以打算…

接口幂等性问题和常见解决方案

接口幂等性问题和常见解决方案 1.什么是接口幂等性问题1.1 会产生接口幂等性的问题1.2 解决思路 2.接口幂等性的解决方案2.1 唯一索引解决方案2.2 乐观锁解决方案2.3 分布式锁解决方案2.4 Token解决方案(最优方案) 3 Token解决方案落地3.1 token获取、token校验3.2 自定义注解,…

小蓝的漆房——算法思路

题目链接:1.小蓝的漆房 - 蓝桥云课 (lanqiao.cn) 本题只要是通过枚举的方法,算出涂成每一种颜色所需的天数,最后在所有天数中找出最小值(由题可知,最多只有60种颜色,所以可以尝试算出每种颜色所需的时间&am…

LeetCode刷题小记 八、【回溯算法】

1.回溯算法 文章目录 1.回溯算法写在前面1.1回溯算法基本知识1.2组合问题1.3组合问题的剪枝操作1.4组合总和III1.5电话号码的字母组合1.6组合总和1.7组合总和II1.8分割回文串1.9复原IP地址1.10子集问题1.11子集II1.12非递减子序列1.13全排列1.14全排列II1.15N皇后1.16解数独 写…

react中hooks使用限制

只能在最顶层使用Hook 不要在循环、条件中调用hook,确保总是在React函数最顶层使用它们 只能React函数中调用Hook 不要在普通的js函数中调用 在React的函数组件中调用Hook 在自定义hook中调用其他hook 原因: 我们每次的状态值或者依赖项存在哪里&…