Elasticsearch的分片平衡问题解决

2023年11月份在某电商系统生产中的Elasticsearch(以下简称ES)集群突然,出现了大量慢查询告警,导致请求堆积。经过几天的排查发现了ES节点主分片和副本分片分布存在不均匀的问题。当然了暂未有定论是由于分片不均衡导致了性能下降,但是主分片和副本分片分布不均匀确实是个问题。

1、概念说明

下面我们来介绍一些重要的概念。

  • 集群(cluster):代表一个集群,其中包含多个节点。集群中有一个主节点,这个主节点通过选举产生。主节点和从节点是集群内部的概念。Elasticsearch采用去中心化的设计,即在集群外部看来,没有中心节点,因为对外部来说,与任何一个节点通信和与整个Elasticsearch集群通信是等价的。

  • 主分片(Primary Shard):代表索引的主分片。Elasticsearch可以将一个完整的索引分成多个主分片,将其分布在不同的节点上,实现分布式搜索。主分片的数量只能在索引创建前指定,并且创建后不能更改。

  • 副本分片(Replica Shard):代表索引的副本分片。Elasticsearch可以为一个索引设置多个副本,副本的作用有两个方面:一是提高系统的容错性,当某个节点的分片损坏或丢失时,可以从副本中恢复数据;二是提高查询效率,Elasticsearch会自动对搜索请求进行负载均衡。

  • 数据恢复(recovery):或重新分布是指在节点加入或退出集群时,根据机器的负载情况重新分配索引分片的过程。当一个节点重新启动时,也会进行数据恢复。

那么,在什么情况下可能导致分片分布不均匀呢?

  • 索引的动态均衡 :包括集群内部节点数量调整、新增索引、删除索引副本、删除索引等情况;
  • 增加副本 :因有大量的数据集中写入到某个节点;
  • 节点宕机:通常在下线一个Elasticsearch节点后,该节点上的主分片会被判定为丢失,此时Elasticsearch集群会自动将其他节点上的副本分片设置为主分片。当该节点重新启动时,分片数据会被识别为副本分片。这些操作可能导致一些节点上的主分片较为集中,而另一些节点上的副本分片较为集中;
  • 大量集中数据写入:大量数据的集中写入可能导致主分片在短时间内不均匀的情况。当业务场景需要大量写入时,如果设置了较多的ingest节点进行写入,由于无法实时同步,可能会导致主分片在节点之间不均匀地分布。

上述两种情况经常发生,因此分片分布不均匀并不罕见。

2、分配与平衡策略

以下动态设置可用于控制集群中分片的重新平衡:
在这里插入图片描述

2.1、 shard分配策略

参数说明: cluster.routing.allocation.enable-(动态) 启用或禁用特定类型分片的分配:

  • all -(默认值)允许为所有类型的分片分配分片。
  • primaries - 仅允许为主分片分配分片。
  • new_primaries - 仅允许为新索引的主分片分配分片。
  • none - 不允许对任何索引进行任何类型的分片分配。
    重新启动节点时,此设置不会影响本地主分片的恢复。如果重新启动的节点具有未分配的主分片的副本,会立即恢复该主分片。
cluster.routing.allocation.node_concurrent_incoming_recovers
允许在一个节点上进行多少次并发的传入分片恢复。传入恢复是指在节点上分配目标分片(很可能是副本,除非分片正在重新定位)的恢复。默认值为2。
cluster.routing.allocation.node_concurrent_outgoing_recoveries
允许在一个节点上进行多少次并发传出分片恢复。传出恢复是指在节点上分配源分片(很可能是主分片,除非分片正在重新定位)的恢复。默认值为2。
cluster.routing.allocation.node_concurrent_recoveries
设置cluster.routing.allocation.node_concurrent_incoming_recoveries和cluster.routing_allocation.node _concurrent_outgoing_recoveries的快捷方式。
cluster.routing.allocation.node_initial_priparies_recoveries
虽然复制副本的恢复是通过网络进行的,但节点重新启动后未分配的主服务器的恢复使用本地磁盘中的数据。这些恢复应该很快,这样就可以在同一节点上并行进行更多的初始主恢复。默认值为4。
cluster.routing.allocation.same_shard.host
允许根据主机名和主机地址执行检查,以防止在单个主机上分配同一分片的多个实例。默认为false,表示默认情况下不执行任何检查。此设置仅适用于在同一台计算机上启动多个节点的情况。

2.2. rebalance平衡策略

参数说明:cluster.routing.allocation.allow_rebalance用来控制rebalance触发条件:

  • always - 始终允许重新平衡;
  • indices_primaries_active - 仅在所有主分片可用时;
  • indices_all_active - (默认)仅当所有分片都激活时;
    cluster.routing.allocation.cluster_concurrent_rebalance用来控制均衡力度,允许集群内并发分片的rebalance数量,默认为2。
    cluster.routing.allocation.node_concurrent_recoveries,每个node上允许rebalance的片数量。

3、解决方案

3.1、重启节点

在重启ES集群之前,我们先来看看集群分片分配设置(allocation和rebalance)默认参数。
在这里插入图片描述
默认设置情况下,经过多次重启,实践证明重启条件下ES集群不会触发自动均衡。

3.2 自动分片迁移

假如以idx_items商品索引为例,我们在进行重新(reblance)分片操作之前,一般要对索引数据进行备份,以防意外发生,备份操作如下:

  • 备份索引数据:
POST _reindex
{"source":{"index": "idx_items"},"dest": {"index": "idx_items_temp"}
}
  • 集群开启自动分片(shard allocation):
PUT _cluster/settings
{"persistent":{"cluster.routing.allocation.enable": "all","cluster.routing.rebalance.enable": "all",}
}
  • 降低副本数为0
PUT idx_items/_settings
{"number_of_replicas": 0
}

3.3 手动分片迁移

  • 集群开启分片平衡(shard rebalance):
PUT _cluster/settings
{"persistent":{"cluster.routing.allocation.enable": "all","cluster.routing.rebalance.enable": "none",}
}
  • 降低副本数为0
PUT idx_items/_settings
{"number_of_replicas": 0
}
  • 手动分片迁移

从节点名称为node-1迁移到节点名称node-2,迁移的分片为0.

POST /_cluster/reroute
{"commands": [{"move":{"index": "idx_items","shard": 0,"from_node": "node-1","to_node": "node-2"}}]
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/526272.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux卸载nomachine,NoMachine 安装与配置及使用

对Linux管理员们来说,远程办公不是什么新鲜事。如果管理员不在服务器跟前,远程办公更是家常便饭。一般而言,图形用户界面(GUI)默认情况下并不安装在Linux服务器上。但是可能有一些Linux管理员还是决定将GUI安装在Linux服务器上。如果你的服务…

linux系统之间无密传输,scp采用无密码在两台linux服务器之间传输数据(示例代码)...

一、root用户:1. 在主机A上执行如下命令来生成配对密钥:ssh-keygen -t rsa按照提示操作,注意,不要输入passphrase。提示信息如下Generating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa…

linux中top和ps的内存区别,linux - top与ps间的区别

背景在linux系统中提供了2个查询系统负荷值的命令,一个是 ps -o THREAD 一个是 top ,这两个命令都能够查询当前进程的CPU使用率情况,但是所代表的含义确实不一样的,ps -o THREAD 偏向与整个进程周期所占的CPU使用率,而 top 更偏向…

linux登录界面输入密码时卡住6,centos6.8(虚拟机VNC)输入正确用户名和密码仍跳回登录界面...

1)CentOS自动更新到6.8后root无法登陆问题解决虚拟机CentOS服务器不知道被谁更新系统到6.8后,发现在本机上即使输入正确的密码也无法登陆,发现有一些人也碰见过同样的问题,但是他们是因为系统变为64位后,无法找到pam_limits.so的正…

linux内核功能关闭透明大页 功能,redhat linux 7.4关闭透明大页

每一步:在GRUB_CMDLINE_LINUX加入选项 transparent_hugepageneverecho GRUB_CMDLINE_LINUX"transparent_hugepagenever" >> /etc/default/grub第二步:重新生成grub配置文件grub2-mkconfig -o /boot/grub2/grub.cfgGenerating grub confi…

linux获取ip地址的接口,获取Linux上接口的IP地址

sjsam..23如果您正在寻找特定接口的地址(IPv4),请说wlan0然后尝试使用getifaddrs()的代码:#include #include #include #include #include #include #include #include int main(int argc, char *argv[]){struct ifaddrs *ifaddr, *ifa;int family, s;char host[NI_MAXHOST];if…

linux yum 安装widget,CentOS 7安装Qt5.12.1过程

默认下载在Downloads目录下预安装sudo yum -y install mesa-libGL-devel mesa-libGLU-devel freeglut-devel给下载的文件赋予可执行的权限chmod x qt-opensource-linux-x64-5.12.1.run执行文件,进行安装./qt-opensource-linux-x64-5.12.1.run接下来会进行界面化的安…

usb otg vnc linux,20131126版本后,可以从PC通过USB-OTG VNC到pcDuino

为什么80%的码农都做不了架构师?>>>有些玩家购买pcDuino到手后发现自己没有显示器,没有鼠标键盘,有的只有手机的充电器和数据线。pcDuino开发者了解到粉丝们的郁闷之后,在软件上帮忙大家解决了这个问题。下面就给大家介绍…

linux 镜像错误,VituralBox 使用已有镜像文件报错:E_INVALIDARG (0x80070057)

VituralBox 使用已有镜像文件报错:E_INVALIDARG (0x80070057):问题描述:UUID已经存在Cannot register the hard disk E:\system_iso\CentOS6.8.vdi {05f096aa-67fc-4191-983d-1ed00fc6cce9}because a hard disk E:\system_iso\centos68_02\centos6.8.vdi…

c语言中123 234 345 456,如何在C中将数字从1123456789格式化为1,123,456,789?

宝慕林4294392您可以按以下方式递归执行此操作(请注意&#xff0c;INT_MIN如果使用二进制补码&#xff0c;则需要额外的代码来管理它)&#xff1a;void printfcomma2 (int n) { if (n < 1000) { printf ("%d", n); return; } printfcomma2…

dos c语言显示符号图案,在DOS命令行窗口中显示出用各种字符拼凑出来的各种图案的实现方法,如本人头像...

注&#xff1a;文中例子是本人刚学C编程语言的时候制作的&#xff0c;实现方法很简单&#xff0c;主要使用for循环语句&#xff0c;无需什么复杂烧脑的算法。由于经常看到各种符号拼成的图案&#xff0c;感觉很有意思&#xff0c;所以自己也弄了个&#xff0c;纯属好玩。(作品-…

android自定义圆圈动画,自定义view实现动画数字圆圈

我们要实现的是如下的效果&#xff0c;1.该view在设置属性之后时候会有数字和圆圈不断增长的效果2.该view在按下和放开状态下显示不同的样式。这种效果逻辑上并不复杂&#xff0c;底层灰色圆圈和蓝色扇形圆圈都是用canvas.drawArc()绘制出来的&#xff0c;中间的数字用drawtext…

android 背景切换动画效果代码,在Android应用中以模糊效果设置背景图片

我试图使列表视图上的背景图像模糊,但是我尝试按照教程进行操作,但它不起作用.任何人都请指教,谢谢.主要活动public class IngredientCategoryMain extends Activity {ListView list;String[] title;CategoryImageAdapter adapter;Overrideprotected void onCreate(Bundle save…

android+水滴粘性动画,Android控件实现水滴效果

看到ios版上QQ刷新效果像水滴&#xff0c;然后自己也想着去实现这样的效果&#xff0c;这篇文章暂时没有介绍下拉刷新的效果&#xff0c;只是单独用一个控件来实现这样的水滴效果。效果图如下&#xff1a;一、总体思路1、画两个圆形&#xff0c;其中一个就是上面的大圆&#xf…

android 标题栏进度圈使用方法,Android 自定义标题栏 显示网页加载进度的方法实例...

这阵子在做Lephone的适配&#xff0c;测试组提交一个bug&#xff1a;标题栏的文字较长时没有显示完全&#xff0c;其实这并不能算个bug&#xff0c;并且这个问题在以前其他机器也没有出现&#xff0c;只是说在Lephone的这个平台上显示得不怎么美观&#xff0c;因为联想将原生的…

android7.0uri,整理: 解决Android7.0以上文件报FileUriExposedException问题

最近项目Android编译版本改为targetSdkVersion26, 之前隐藏的版本问题暴露出来, 尤其是文件第三方打开及Apk更新问题,这里记录下7.0以后文件相关问题问题描述:安装apk的代码一般写法如下&#xff0c;网上随处可以搜到:public static void installApk(Context context, File fil…

android+使用bmob冲突,bmob开发android遇到的问题

昨天尝试使用bmob&#xff0c;但是在使用文件对象时候遇到问题&#xff0c;但是他们的工作人员周末没上班&#xff0c;问题没解决&#xff0c;昨晚一晚没睡好&#xff0c;之后大清早的来求帮助了。源码如下&#xff1a;String path Environment.getExternalStorageDirectory()…

第一台鸿蒙手机是,第一台预装鸿蒙OS的手机终于登场。

原标题&#xff1a;第一台预装鸿蒙OS的手机终于登场。千呼万唤始出来&#xff0c;之前大家期待了很久的鸿蒙OS它终于真正到来了。据工业和信息化部公布的消息&#xff0c;搭载鸿蒙OS的新款华为手机正式入网了&#xff0c;这也将是华为第一台预装鸿蒙OS的新款手机。但令人完全没…

linux sed 正则转义,Linux运维云升笔记 (一)正则表达式以及文档编辑器sed

正则表达式概述使用单个字符来描述、匹配一系列符合某个语句规则的字符串&#xff0c;由普通字符与特殊字符组成&#xff0c;正则表达式广泛使用在脚本编程、文本编辑器中。正则表达式简写为regex、regexp、RE。再大多数语言当中正则表达式都被包括在两个正斜杠当中“/”正则表…

html 自动切换tab栏,html 实现tab切换的示例代码

tab切换在项目中也算是常用技术&#xff0c;一般实现tab切换都用js或者jq实现&#xff0c;今天介绍两种只用css实现tab切换方法&#xff1a;方法一&#xff1a;原理&#xff1a;通过label标签的关联属性和input的单选类型实现相应div的显示1.创建一个类名为wrap的div当作容器2.…