深入浅出 Zookeeper 中的 ZAB 协议

本文主要内容如下:

图片

ZAB 协议的全称是 Zookeeper Atomic Broadcase,原子广播协议。

作用:通过这个 ZAB 协议可以进行集群间主备节点的数据同步,保证数据的一致性。

在讲解 ZAB 协议之前,我们必须要了解 Zookeeper 的各节点的角色。

1. Zookeeper 各节点的角色

Leader

  • 负责处理客户端发送的读、写事务请求。这里的事务请求可以理解这个请求具有事务的 ACID 特性。
  • 同步写事务请求给其他节点,且需要保证事务的顺序性。
  • 状态为 LEADING。

Follower

  • 负责处理客户端发送的读请求
  • 转发写事务请求给 Leader。
  • 参与 Leader 的选举。
  • 状态为 FOLLOWING。

Observer

和 Follower 一样,唯一不同的是,不参与 Leader 的选举,且状态为 OBSERING。

可以用来线性扩展读的 QPS。

2. 启动阶段,如何选 Leader?

Zookeeper 刚启动的时候,多个节点需要找出一个 Leader。怎么找呢,就是用投票

比如集群中有两个节点,A 和 B,原理图如下所示:

图片

  • 节点 A 先投票给自己,投票信息包含节点 id(SID) 和一个 ZXID,如 (1,0)。SID 是配置好的,且唯一,ZXID 是唯一的递增编号。
  • 节点 B 先投票给自己,投票信息为(2,0)。
  • 然后节点 A 和 B 将自己的投票信息投票给集群中所有节点
  • 节点 A 收到节点 B 的投票信息后,检查下节点 B 的状态是否是本轮投票,以及是否是正在选举(LOOKING)的状态。
  • 投票 PK:节点 A 会将自己的投票和别人的投票进行 PK,如果别的节点发过来的 ZXID 较大,则把自己的投票信息更新为别的节点发过来的投票信息,如果 ZXID 相等,则比较 SID。这里节点 A 和 节点 B 的 ZXID 相同,SID 的话,节点 B 要大些,所以节点 A 更新投票信息为(2,0),然后将投票信息再次发送出去。而节点 B 不需要更新投票信息,但是下一轮还需要再次将投票发出去。

这个时候节点 A 的投票信息为(2,0),如下图所示:

图片

  • 统计投票:每一轮投票,都会统计每台节点收到的投票信息,判断是否有过半的节点收到了相同的投票信息。节点 A 和 节点 B 收到的投票信息都为(2,0),且数量来说,大于一半节点的数量,所以将节点 B 选出来作为 Leader。
  • 更新节点状态:节点 A 作为 Follower,更新状态为 FOLLOWING,节点 B 作为 Leader,更新状态为 LEADING。

3. 运行期间,Leader 宕机了怎么办?

在 Zookeeper 运行期间,Leader 会一直保持为 LEADING 状态,直到 Leader 宕机了,这个时候就要重新选 Leader,而选举过程和启动阶段的选举过程基本一致。

需要注意的点:

  • 剩下的 Follower 进行选举,Observer 不参与选举。
  • 投票信息中的 zxid 用的是本地磁盘日志文件中的。如果这个节点上的 zxid 较大,就会被当选为 Leader。如果 Follower 的 zxid 都相同,则 Follower 的节点 id 较大的会被选为 Leader。

4. 节点之间如何同步数据的?

不同的客户端可以分别连接到主节点或备用节点。

而客户端发送读写请求时是不知道自己连的是Leader 还是 Follower,如果客户端连的是主节点,发送了写请求,那么 Leader 执行 2PC(两阶段提交协议)同步给其他 Follower 和 Observer 就可以了。但是如果客户端连的是 Follower,发送了写请求,那么 Follower 会将写请求转发给 Leader,然后 Leader 再进行 2PC 同步数据给 Follower。

两阶段提交协议:

  • 第一阶段:Leader 先发送 proposal 给 Follower,Follower 发送 ack 响应给 Leader。如果收到的 ack 过半,则进入下一阶段。
  • 第二阶段: Leader 从磁盘日志文件中加载数据到内存中,Leader 发送 commit 消息给 Follower,Follower 加载数据到内存中。

我们来看下 Leader 同步数据的流程:

图片

  • ① 客户端发送写事务请求。
  • ② Leader 收到写请求后,转化为一个 “proposal01:zxid1” 事务请求,存到磁盘日志文件。
  • ③ 发送 proposal 给其他 Follower。
  • ④ Follower 收到 proposal 后,Follower 写磁盘日志文件。

接着我们看下 Follower 收到 Leader 发送的 proposal 事务请求后,怎么处理的:

图片

  • ⑤ Follower 返回 ack 给 Leader。
  • ⑥ Leader 收到超过一半的 ack,进行下一阶段
  • ⑦ Leader 将磁盘中的日志文件的 proposal 加载到 znode 内存数据结构中。
  • ⑧ Leader 发送 commit 消息给所有 Follower 和 Observer。
  • ⑨ Follower 收到 commit 消息后,将 磁盘中数据加载到 znode 内存数据结构中。

现在 Leader 和 Follower 的数据都是在内存数据中的,且是一致的,客户端从 Leader 和 Follower 读到的数据都是一致的。

ZAB 的顺序一致性怎么做到的?

Leader 发送 proposal 时,其实会为每个 Follower 创建一个队列,都往各自的队列中发送 proposal。

如下图所示是 Zookeeper 的消息广播流程:

图片

客户端发送了三条写事务请求,对应的 proposal 为

proposal01:zxid1
proposal02:zxid2
proposal03:zxid3

Leader 收到请求后,依次放到队列中,然后 Follower 依次从队列中获取请求,这样就保证了数据的顺序性

5. Zookeeper 到底是不是强一致性?

官方定义:顺序一致性。

不保证强一致性,为什么呢?

因为 Leader 再发送 commit 消息给所有 Follower 和 Observer 后,它们并不是同时完成 commit 的。

比如因为网络原因,不同节点收到的 commit 较晚,那么提交的时间也较晚,就会出现多个节点的数据不一致,但是经过短暂的时间后,所有节点都 commit 后,数据就保持同步了。

另外 Zookeeper 支持强一致性,就是手动调用 sync 方法来保证所有节点都 commit 才算成功。

这里有个问题:如果某个节点 commit 失败,那么 Leader 会进行重试吗?如何保证数据的一致性?欢迎讨论。

6. Leader 宕机数据丢失问题

第一种情况:假设 Leader 已经将消息写入了本地磁盘,但是还没有发送 proposal 给 Follower,这个时候 Leader 宕机了。

那就需要选新的 Leader,新 Leader 发送 proposal 的时候,包含的 zxid 自增规律会发生一次变化:

  • zxid 的高 32 位自增 1 一次,高 32 位代表 Leader 的版本号。
  • zxid 的低 32 位自增 1,后续还是继续保持自增长。

当老 Leader 恢复后,会转成 Follower,Leader 发送最新的 proposal 给它时,发现本地磁盘的 proposal 的 zxid 的高 32 位小于新 Leader 发送的 proposal,就丢弃自己的 proposal。

第二种情况:如果 Leader 成功发送了 commit 消息给 Follower,但是所有或者部分 Follower 还没来得及 commit 这个 proposal,也就是加载磁盘中的 proposal 到 内存中,这个时候 Leader 宕机了。

第二种情况:如果 Leader 成功发送了 commit 消息给 Follower,但是所有或者部分 Follower 还没来得及 commit 这个 proposal,也就是加载磁盘中的 proposal 到 内存中,这个时候 Leader 宕机了。

那么就需要选出磁盘日志中 zxid 最大的 Follower,如果 zxid 相同,则比较节点 id,节点 id 大的作为 Leader。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/602429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决Canvas画图清晰度问题

最近在开发Web端远程桌面的时候遇到的一个问题,解决记录一下,分享给各位有需要用到的朋友。 先吹下水:远程桌面的连接我们是通过Websocket连接后,后端不断返回远程端的界面二进制数据流,我接收到之后转为图像&#xf…

window服务器thinkphp队列监听服务

经常使用linux的同学们应该对使用宝塔来做队列监听一定非常熟悉,但对于windows系统下,如何去做队列的监听?是一个很麻烦的事情。 本文将通过windows系统的服务来实现队列的监听。 对于thinkphp6 queue如何使用,不再赘述。其它系…

Windows系统如何使用VNC远程连接Deepin桌面【内网穿透】

文章目录 1. 安装x11vnc2. 本地远程连接测试3. Deepin安装Cpolar4. 配置公网远程地址5. 公网远程连接Deepin桌面6. 固定连接公网地址7. 固定公网地址连接测试 x11vnc是一种在Linux系统中实现远程桌面控制的工具,它的原理是通过X Window系统的协议来实现远程桌面的展…

跟随chatgpt从零开始安装git(Windows系统)

为什么我们要安装Git?Git有什么用? 1. 版本控制:Git 可以追踪代码的所有变化,记录每个提交的差异,使您能够轻松地回溯到任何历史版本或比较不同版本之间的差异。 2. 分支管理:通过 Git 的分支功能&#xff…

C++ Qt开发:Charts与数据库组件联动

Qt 是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍Charts组件与QSql数据库组件的常用方法及灵活…

wordpress个人博客/杂志主题Pin Premium

Pin Premium WordPress主题是针对博主的时尚且自适应的Pinterest风格主题。使用HTML5和CSS3技术创建,带有有效代码(两个演示),完全响应,在所有移动设备上看起来完美,可在任何设备和 PC 上轻松使用。 响应式设计针对平板电脑和智能…

揭秘大模型「幻觉」:数据偏差、泛化与上下文理解的挑战与解决之道

什么是大模型「幻觉」 所谓的「幻觉」指的是当大模型生成与现实不符或逻辑上不连贯的信息时。这通常发生在模型对某些数据理解不足或数据本身存在偏差的情况下。由于模型是基于概率统计和以往数据训练的,它们可能在面对未知或少见情况时产生不准确的推断。 大模型不具有本地知…

柯桥学韩语【韩语网络用语】听说最近的年轻人都重视슬세권,역세권....吗?

来解锁一下今天的新词“슬세권” 슬리퍼와 세권(勢圈)의 합성어로 슬리퍼와 같은 편한 복장으로 각종 여가편의시설을 이용할 수 있는 주거 권역을 이르는 신조어다. 슬세권是"拖鞋"和"势圈"的合成词,即使穿着像拖鞋类似的便装, …

J2 - ResNet-50v2实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 目录 环境步骤环境设置数据准备图像信息查看 模型设计ResidualBlock块stack堆叠resnet50v2模型 模型训练模型效果展示 总结与心得体会 环境…

网页服务, 静态页面

文章目录 概要demo示例说明 概要 创建微服务时, 可以将静态资源(前端界面)放入resource中, 通过接口来访问 参考博客: https://blog.csdn.net/wangxin1949/article/details/89016428 demo示例 Controller RequestMapping(“/terminal/task”) public…

深度学习中的知识蒸馏

一.概念 知识蒸馏(Knowledge Distillation)是一种深度学习中的模型压缩技术,旨在通过从一个教师模型(teacher model)向一个学生模型(student model)传递知识来减小模型的规模,同时保…

通过聚道云软件连接器实现钉钉与自研主数据系统的完美融合

客户介绍 某知名高校,拥有数千名教职工,日常管理涉及大量的人员异动信息。该高校设有多个学院和研究所,涵盖了工、理、管、文等多个学科领域。该高校是一所充满活力和潜力的学府,致力于为学生提供优质的教育资源和多元化的学习环…

体系化的进阶学习内容

UWA学堂:传播游戏行业的体系化的进阶学习内容。UWA学堂作为面向开发者的在线学习平台,目前已经上线272门课程,涵盖了3D引擎渲染、UI、逻辑代码等多个模块,拥有完整的学习体系,一直致力于为广大的开发者提供更丰富、更优…

数据结构——堆排序

什么是堆排序 堆排序就是利用堆(假设利用大堆)进行排序的算法。他的基本思想是,将待排序的序列构造成一个大顶堆。此时,整个序列的最大值就是堆顶的根节点。将他移走(其实就是将其与堆数组的末尾元素交换,…

NVIDIA Jetpack6.0DP使用过程中的问题

Jetpack6.0DP是2023年12月才发布, 操作系统使用了ubuntu 22.04, gcc是11.4,版本都很高, 用起来还存在一些问题 无法使用jtop https://forums.developer.nvidia.com/t/jtop-no-longer-works-on-jp-6-0-dp/275215 使用$ sudo -H p…

常用网络接口自动化测试框架

(一)GUI界面测试工具:jmeter 1、添加线程组 2、添加http请求 3、为线程组添加察看结果树 4、写入接口参数并运行 5、在查看结果树窗口查看结果 6、多组数据可增加CSVDataSetConfig(添加.csv格式的文件,并在参数值里以${x}格式写入) 此时变量…

条件随机场 (CRF) 的损失函数以及faiss 的原理介绍

1、条件随机场 (CRF) 的损失函数 条件随机场(CRF)是一种统计建模方法,常用于结构化预测问题,如序列标注、分词和命名实体识别等。在CRF模型中,损失函数用于衡量模型预测的标记序列与真实标记序列之间的差异。CRF的目标…

基于华为云解析服务实现网站区域封禁

前言 中国大陆以外的网络攻击不断,个人博客时常遭受不明个人或组织的攻击,给网站的安全运行带来了巨大的风险,同时DDoS、CC攻击等还会消耗服务器的资源,站长可能需要因此支付高昂的服务器、CDN的流量费用。 因此,如果…

【非关系型数据库】Redis概述及安装、命令使用

目录 前瞻 关系型数据库 非关系型数据库 关系型数据库和非关系型数据库区别 数据存储方式不同 扩展方式不同 对事务性的支持不同 非关系型数据库产生背景 总结 Redis简介 什么是Redis Redis具有的优点 Redis使用场景 哪些数据适合放入缓存中? Redis为什…

JAVAEE初阶相关内容第二十弹--HTTP协议【续集】

写在前:在前一篇博客中我们初步掌握了HTTP(超文本传输协议)的相关知识【点击跳转】,认识了HYYP协议的工作过程,掌握抓包工具Fiddler的使用。在“方法”中重点需要理解“GET”方法与“POST”方法的格式与内容,并了解了请求“报头”…