Redis集群

目录

一, 集群及分片算法

1.1 什么是集群

1.2 数据分片算法

1. 哈希求余

 2. 一致性哈希算

3. 哈希槽分区算法(Redis使用)

二, 集群的故障处理

2.1 故障判定

2.2 故障迁移

三, 集群扩容

四, 集群缩容


一, 集群及分片算法

1.1 什么是集群

我们在Redis哨兵中学习了,哨兵+主从复制是为了提高系统的可用性,当主节点发生宕机了,可以自动进行恢复,但是并不能解决"数据极端情况下丢失"的问题,不能提高数据的存储容量,当我们存储的数据接近或者超过机器的无礼内存,这样的结构就难以胜任了,所以引入了集群的概念.

Redis集群就是在上述的思路之下,引入多组Master/Slave,每一组Master/Slave存储数据全集的一部分,从而构成一个更大的整体,称为Redis集群.

假如整个数据全集是1TB,引入三组Master/Slave来存储,那么每一组机器只需要存储整个数据全集的1/3即可.

在上述图中:

  • Master1 和 Slave11 和 Slave12  保存的数据是同样的数据,占总数据的1/3
  • Master2 和 Slave21 和 Slave22  保存的数据是同样的数据,占总数据的1/3
  • Master3 和 Slave31 和 Slave32  保存的数据是同样的数据,占总数据的1/3

这三组机器存储的数据是不同的;每个Slave都是对应Master的备份(当Master挂了,对应的Slave会补位成Master),每个红框部分都可以称为是一个分片(Sharding),如果数量进一步增加,只要增加更多的分片,即可解决.

1.2 数据分片算法

Redis集群的核心思路是用多组机器来存数据的每个部分,那么接下来的核心问题就是,给定一个数据(一个具体的key),那么这个数据应该存储在哪个分片上?读取的时候又应该去哪个分片读取?围绕这个问题,业界有三种比较主流的实现方式.

1. 哈希求余

设有N个分片,使用[0,N-1]这样序号进行编号

针对某个给定的key,先计算hash值,再把得到的结果%N,得到的结果即为分片编号.

例如,N为3.给定key为hello,对hello计算hash值(比如使用md5算法),得到的结果为"bc4b2a76b9719d91",再把这个结果%3,结果为0,那么就把hello这个key放到0号分片上;实际工作涉及到的系统,计算hash的方式不一定是md5,但是思想是一致的.

后续如果要取某个key的记录,也是针对key计算hash,再对N求余,就可以找到对应的分片编号了.

优点:简单高效,数据分配均匀

缺点:一旦需要进行扩容,N就改变了,原有的映射规则被破坏,就需要让节点之间的数据相互传输,重新排列以满足昕的映射规则,此时需要搬运的数据量是比较多的,开销较大

N为3的时候,[100,120]这21个hash值的分布(此处假定计算出的hash值是一个简单的整数,方便肉眼观察),当引入一个新的分片,N从3->4时,大量的key都需要重新映射(某个key%3和%4的结果不一样,就映射到不同机器上了)

如上图可以看出,整个扩容一共21个key,只有3个key没有经过搬运,其他的key都是搬过的.

 2. 一致性哈希算

为了降低上述的搬运开销,能够更高效扩容,业界提出了"一致性哈希算法",key映射到分片序号的过程不再是简单求余了,而是改成以下过程:

第一步,把 0->2^32-1 这个数据空间,映射到一个圆环上,数据按照顺时针方向增长

第二步,假设当前存在三个分片,就把分片放到圆环的某个位置上

第三步,假定有一个key,计算得到hash值H,那么这个key映射到哪个分片上呢?规则很简单,就是从H所在位置,顺时针往下找,找到的第一个分片,即为该key所从属的分片 

这就相当于,N个分片的位置,把整个圆环分成了N个管辖区间,key的hash值落在某个区间内,就归对应区间管理.

在这个情况下,如果扩容一个分片,如何处理呢?

原有分片在环上位置不动,只要在环上新安排一个分片位置即可.

此时只需要把0号分片上的部分数据,搬运给3号分片即可,1号分片和2号分片管理的区间都是不变的 

优点:大大降低了扩容时对数据搬运的规模,提高了扩容操作的效率

缺点:数据分配不均匀(有的多有的少,数据倾斜)

3. 哈希槽分区算法(Redis使用)

为了解决上述问题(搬运成本高和数据分配不均匀),Redis集群引入了哈希槽(hash slots)算法

hash_slot = crc16(key) % 16384

其中crc16也是一种hash算法,通过key计算出对应的key

16384 = 16 * 1024 也就是2^14

相当于把整个哈希值,映射到16384个槽位上,也就是[0,16383],然后再把这些槽位比较均匀的分配给每一个分片,每个分片的节点都需要记录自己持有哪些分片;

假设当前有三个分片,一种可能的分配方式:

  • 0号分片:[0,5461] 共5642个槽位
  • 1号分片:[5642,10923] 共5642个槽位
  • 2号分片:[10924,16383] 共5640个槽位

这里的分片规则是很灵活的,每个分片持有的槽位也不一定连续,每个分片的节点使用位图来表示自己持有哪些槽位,对于16384个槽位来说,需要2048个字节(2KB)大小的内存空间表示.

如果需要进行扩容,比如新增一个3号分片,就可以针对原有的槽位进行重新分配,比如可以把之前每个分片持有的槽位,各拿出一点,分给新分片,一种可能的分配方式:

  • 0号分片:[0,4095] 共4096个槽位
  • 1号分片:[5642,9557] 共4096个槽位
  • 2号分片:[10924,15019] 共4096个槽位
  • 3号分片:[4096,5461] + [9558,10923] + [15019,16383] 共4096个槽位

我们实际使用Redis集群分片的时候,不需要手动指定哪些槽位分配给某个分片,只需要告诉某个分片应该持有多少个槽位即可,Redis会自动完成后续的槽位分配,以及对应的key搬运的工作.

哈希槽分区算法的相关面试问题:

问题一:Redis集群是最多有16384个分片吗?

  • 并非如此,如果一个分片只有一个槽位,这对于集群的数据均匀其实是难以保证的,实际上Redis作者建议集群分片数不应该超过1000.

问题二:为什么是16384个槽位?

  • 节点之间通过⼼跳包通信.,⼼跳包中包含了该节点持有哪些 slots.,这个是使⽤位图这样的数据结构表⽰的.;表⽰ 16384 (16k) 个 slots,需要的位图⼤⼩是 2KB,如果给定的 slots 数更多了,⽐如 65536 个了,此时就需要消耗更多的空间,8 KB 位图表⽰了,8 KB,对于内存来说不算什么,但是在频繁的⽹络⼼跳包中,还是⼀个不⼩的开销;
  • 另⼀⽅⾯,Redis 集群⼀般不建议超过 1000 个分⽚,所以 16k 对于最⼤ 1000 个分⽚来说是⾜够⽤的,同时也会使对应的槽位配置位图体积不⾄于很⼤.

二, 集群的故障处理

2.1 故障判定

集群中的所有节点,都会周期性的使用心跳包进行通信

  1. 节点 A 给 节点 B 发送 ping 包, B 就会给 A 返回⼀个 pong 包. ping 和 pong 除了 message type属性之外, 其他部分都是⼀样的. 这⾥包含了集群的配置信息(该节点的id, 该节点从属于哪个分⽚,是主节点还是从节点, 从属于谁, 持有哪些 slots 的位图...).
  2. 每个节点, 每秒钟, 都会给⼀些随机的节点发起 ping 包, ⽽不是全发⼀遍. 这样设定是为了避免在节点很多的时候, ⼼跳包也⾮常多(⽐如有 9 个节点, 如果全发, 就是 9 * 8 有 72 组⼼跳了, ⽽且这是按照 N^2 这样的级别增⻓的).
  3. 当节点 A 给节点 B 发起 ping 包, B 不能如期回应的时候, 此时 A 就会尝试重置和 B 的 tcp 连接, 看能否连接成功. 如果仍然连接失败, A 就会把 B 设为 PFAIL 状态(相当于主观下线).
  4. A 判定 B 为 PFAIL 之后, 会通过 redis 内置的 Gossip 协议, 和其他节点进⾏沟通, 向其他节点确认 B的状态. (每个节点都会维护⼀个⾃⼰的 "下线列表", 由于视⻆不同, 每个节点的下线列表也不⼀定相同). ​​​​​​
  5. 此时 A 发现其他很多节点, 也认为 B 为 PFAIL, 并且数⽬超过总集群个数的⼀半, 那么 A 就会把 B 标记成 FAIL (相当于客观下线), 并且把这个消息同步给其他节点(其他节点收到之后, 也会把 B 标记成FAIL).

至此,B就彻底被判定为故障节点了.

某个或者某些节点宕机,有的时候会引起整个集群都宕机(称为fail状态),以下情况会出现集群宕机:

  • 某个分片,所有主节点和从节点都挂了
  • 某个分片上,主节点挂了,但是没有从节点
  • 超过半数的master节点都挂了

2.2 故障迁移

上述例子中,B故障,并且A把B FAIL 的消息告知集群中的其他节点

  • 如果B是从节点,那么不需要进行故障迁移
  • 如果B是主节点,那么就会由B 的从节点(比如C和D)出发故障迁移了

所谓故障迁移,就是指把从节点提拔成主节点,继续给整个Redis集群提供支持,具体流程如下:

  1. 从节点判定⾃⼰是否具有参选资格. 如果从节点和主节点已经太久没通信(此时认为从节点的数据和主节点差异太⼤了), 时间超过阈值, 就失去竞选资格
  2. 具有资格的节点, ⽐如 C 和 D, 就会先休眠⼀定时间. 休眠时间 = 500ms 基础时间 + [0, 500ms] 随机时间 + 排名 * 1000ms. offset 的值越⼤, 则排名越靠前(越⼩)​​​​​​
  3. ⽐如 C 的休眠时间到了, C 就会给其他所有集群中的节点, 进⾏拉票操作. 但是只有主节点才有投票资格
  4. 主节点就会把⾃⼰的票投给 C (每个主节点只有 1 票). 当 C 收到的票数超过主节点数⽬的⼀半, C 就会晋升成主节点. (C ⾃⼰负责执⾏ slaveof no one, 并且让 D 执⾏ slaveof C)​​​​​​​
  5. 同时, C 还会把⾃⼰成为主节点的消息, 同步给其他集群的节点. ⼤家也都会更新⾃⼰保存的集群结构信息

上述选举的过程,称为Raft算法,是一种在分布式系统中广泛使用的算法,在随机休眠时间的加持下,基本上就是谁先唤醒谁谁就能竞选成功.

三, 集群扩容

扩容是一个在开发中比较常遇到的场景,随着业务的发展,现有集群很可能无法容日益增长的数据,此时给集群中加入更多新的机器,就可以使存储空间更大了.

第一步:把新的主节点加入到集群

第二步:重现分配slots

在搬运key的过程中,对于那些不需要搬运的key,访问的时候是没有任何问题的,但是对于需要搬运的key,进行访问可能会出现短暂的访问错误(key的位置发生了变化),随着搬运完成,这样的错误自然就恢复了

第三步:给新的主节点添加从节点

光有主节点了,此时扩容的目标已经初步达成,但是为了保证集群可用性,还需要给这个新的主节点添加从节点,保证该主节点宕机之后,有从节点能够顶上

四, 集群缩容

扩容是比较常见的,但是缩容其实非常少见,此处简单说一下缩容的流程:

第一步:删除从节点

第二步:重新分配slots

第三步:删除主节点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/129305.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

甘特图组件DHTMLX Gantt用例 - 如何拆分任务和里程碑项目路线图

创建一致且引人注意的视觉样式是任何项目管理应用程序的重要要求,这就是为什么我们会在这个系列中继续探索DHTMLX Gantt图库的自定义。在本文中我们将考虑一个新的甘特图定制场景,DHTMLX Gantt组件如何创建一个项目路线图。 DHTMLX Gantt正式版下载 用…

六氟化硫气体监测装置单位VOL%/LEL%/PPM分别是什么意思?

我们在使用六氟化硫等气体监测装置仪器时,经常看到VOL%、LEL%、PPM等单位,以及仪器中反复性、响应时间、灵敏度等这些词在气体检测仪中代表什么意思呢?今天主要给大家解释气体检测仪一些常见的单位及常用术语的意思。 一、常见单位 &#xff…

上线项目问题——无法加载响应数据

目录 无法加载响应数据解决 无法加载响应数据 上线项目时 改用服务器上的redis和MySQL 出现请求能请求到后端,后端也能正常返回数据,但是在前端页面会显示 以为是跨域问题,但是环境还在本地,排除跨域问题以为是服务器问题&#…

iOS App Store上传项目报错 缺少隐私政策网址(URL)解决方法

​ 一、问题如下图所示: ​ 二、解决办法:使用Google浏览器(翻译成中文)直接打开该网址 https://www.freeprivacypolicy.com/free-privacy-policy-generator.php 按照要求填写APP信息,最后将生成的网址复制粘贴到隐…

计算两个时间之间连续的日期(java)

背景介绍 给出两个时间,希望算出两者之间连续的日期,比如时间A:2023-10-01 00:00:00 时间B:2023-11-30 23:59:59,期望得到的连续日期为2023-10-01、2023-10-02、… 2023-11-30 Java版代码示例 import java.time.temporal.ChronoUnit; import java.tim…

Proxysql读写分离

Proxysql读写分离 主从配置 # /etc/my.cnf 主节点 [mysqld] log-binmysql-bin server-id1从节点 [mysqld] server-id2 read_only1#初始化以及创建主从复制用户 mysql> alter user rootlocalhost identified with mysql_native_password by Jianren123; Query OK, 0 rows …

C++:关联式容器set的介绍

1、set的介绍 set是按照一定次序存储元素的容器 在set中,元素的value也标识它(value就是key,类型为T),并且每个value必须是唯一的。 set中的元素不能在容器中修改(元素总是const),但是可以从容器中插入或删除它们。 在内部&#…

使用Llama index构建多代理 RAG

检索增强生成(RAG)已成为增强大型语言模型(LLM)能力的一种强大技术。通过从知识来源中检索相关信息并将其纳入提示,RAG为LLM提供了有用的上下文,以产生基于事实的输出。 但是现有的单代理RAG系统面临着检索效率低下、高延迟和次优提示的挑战。这些问题在…

讲座分享|《追AI的人》——中国科学技术大学张卫明教授分享《人工智能背景下的数字水印》

本篇博客记录 2023年11月1日 《人工智能背景下的数字水印》 讲座笔记。 先来明确一下水印在信息隐藏中的定位,如下图: 目录 概述AI for Watermark图像传统攻击方式(如JPEG压缩)跨媒介攻击方式(屏摄) 文档水…

生成模型常见损失函数Python代码实现+计算原理解析

前言 损失函数无疑是机器学习和深度学习效果验证的核心检验功能,用于评估模型预测值与实际值之间的差异。我们学习机器学习和深度学习或多或少都接触到了损失函数,但是我们缺少细致的对损失函数进行分类,或者系统的学习损失函数在不同的算法…

Docker DeskTop安装与启动(Windows版本)

一、官网下载Docker安装包 Docker官网如下: Docker官网不同操作系统下载页面https://docs.docker.com/desktop/install/windows-install/ 二、安装Docker DeskTop 2.1 双击 Docker Installer.exe 以运行安装程序 2.2 安装操作 默认勾选,具体操作如下…

升级智能监控,真香!

随着社会的发展与进步,传统依赖看的监控已经无法满足大众的需求,不够智能、识别不精准,传统监控的弊端也日益显现,智能监控升级迫在眉睫。 升级智能监控,不仅能够促进公共安全,同时也能促进社会文明的发展…

macOS 安装brew

参考链接: https://mirrors4.tuna.tsinghua.edu.cn/help/homebrew/ https://www.yii666.com/blog/429332.html 安装中科大源的: https://zhuanlan.zhihu.com/p/470873649

深度学习_8_对Softmax回归的理解

回归问题,例如之前做房子价格预测的线性回归问题 而softmax回归是一个分类问题,即给定一个图片,从猫狗两种动物类别中选出最可靠的那种答案,这个是两类分类问题,因为狗和猫是两类 上述多个输出可以这样理解,假设一个图…

开源播放器GSYVideoPlayer的简单介绍及播放rtsp流的优化

开源播放器GSYVideoPlayer的简单介绍及播放rtsp流的优化 前言一、GSYVideoPlayer🔥🔥🔥是什么?二、简单使用1.First、在project下的build.gradle添加2.按需导入3. 常用代码 rtsp流的优化大功告成 总结 前言 本文介绍,…

BUUCTF 另外一个世界 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 下载附件,解压得到一个.jpg图片。 密文: 解题思路: 1、这道题我尝试了很多方法,知道看了别人的wp才知道flag在我忽略的地方。将图片在010 Editor中打开,从…

服装手机壳抱枕diy来图定制小程序开发

服装手机壳抱枕diy来图定制小程序开发 一、我们的定位与特色 首先,我们是一个多元化商品定制商城。与其他商城不同的是,我们致力于提供全方位的定制服务,包括手机壳、抱枕、服装、水杯贴图等各类商品。 此外,我们还提供冲洗照片…

PostgreSQL 进阶 - 使用foreign key,使用 subqueries 插入,inner joins,outer joins

1. 使用foreign key 创建 table CREATE TABLE orders( order_id SERIAL PRIMARY KEY, purchase_total NUMERIC, timestamp TIMESTAMPTZ, customer_id INT REFERENCES customers(customer_id) ON DELETE CASCADE);“order_id”:作为主键的自增序列,使用 …

学习笔记二十八:K8S控制器Daemonset入门到企业实战应用

DaemonSet控制器:概念、原理解读 DaemonSet概述DaemonSet工作原理:如何管理PodDaemonset典型的应用场景DaemonSet 与 Deployment 的区别DaemonSet资源清单文件编写技巧 DaemonSet使用案例:部署日志收集组件fluentdDaemonset管理pod&#xff1…

nexus搭建npm私有镜像

假设有一个nexus服务,地址为: http://10.10.33.50:8081/ 创建存储空间 登录后创建存储空间,选择存储类型为File,并设置空间名称为 npm-private 创建仓库类型 2.1 创建hosted类型仓库 创建一个名为 npm-hosted 的本地类型仓库 2.…