DLedger —基于 raft 协议的 commitlog 存储库

尊敬的阿里云用户:
您好!为方便您试用开源 RocketMQ 客户端访问阿里云MQ,我们申请了专门的优惠券,优惠券可以直接抵扣金额。请填写下您公司账号信息,点击上图,了解更多哦。

一、DLedger引入目的


在 RocketMQ 4.5 版本之前,RocketMQ 只有 Master/Slave 一种部署方式,一组 broker 中有一个 Master ,有零到多个 
Slave,Slave 通过同步复制或异步复制的方式去同步 Master 数据。Master/Slave 部署模式,提供了一定的高可用性。 
但这样的部署模式,有一定缺陷。比如故障转移方面,如果主节点挂了,还需要人为手动进行重启或者切换,无法自动将一个从节点转换为主节点。因此,我们希望能有一个新的多副本架构,去解决这个问题。

新的多副本架构首先需要解决自动故障转移的问题,本质上来说是自动选主的问题。这个问题的解决方案基本可以分为两种:

  • 利用第三方协调服务集群完成选主,比如 zookeeper 或者 etcd。这种方案会引入了重量级外部组件,加重部署,运维和故障诊断成本,比如在维护 RocketMQ 集群还需要维护 zookeeper 集群,并且 zookeeper 集群故障会影响到 RocketMQ 集群。
  • 利用 raft 协议来完成一个自动选主,raft 协议相比前者的优点是不需要引入外部组件,自动选主逻辑集成到各个节点的进程中,节点之间通过通信就可以完成选主。

因此最后选择用 raft 协议来解决这个问题,而 DLedger 就是一个基于 raft 协议的 commitlog 存储库,也是 RocketMQ 实现新的高可用多副本架构的关键。

二、DLedger 设计理念

1. DLedger 定位

Raft 协议是复制状态机的实现,这种模型应用到消息系统中就会存在问题。对于消息系统来说,它本身是一个中间代理,commitlog 状态是系统最终状态,并不需要状态机再去完成一次状态构建。因此 DLedger 去掉了 raft 协议中状态机的部分,但基于raft协议保证commitlog 是一致的,并且是高可用的。

另一方面 DLedger 又是一个轻量级的 java library。它对外提供的 API 非常简单,append 和 get。Append 向 DLedger 添加数据,并且添加的数据会对应一个递增的索引,而 get 可以根据索引去获得相应的数据。因此 DLedger 是一个 append only 的日志系统。

2. DLedger 应用场景

DLedger 其中一个应用就是在分布式消息系统中,RocketMQ 4.5 版本发布后,可以采用 RocketMQ on DLedger 方式进行部署。DLedger commitlog 代替了原来的 commitlog,使得 commitlog 拥有了选举复制能力,然后通过角色透传的方式,raft 角色透传给外部 broker 角色,leader 对应原来的 master,follower 和 candidate 对应原来的 slave。

因此 RocketMQ 的 broker 拥有了自动故障转移的能力。在一组 broker 中, Master 挂了以后,依靠 DLedger 自动选主能力,会重新选出 leader,然后通过角色透传变成新的 Master。

DLedger 还可以构建高可用的嵌入式 KV 存储。我们把对一些数据的操作记录到 DLedger 中,然后根据数据量或者实际需求,恢复到hashmap 或者 rocksdb 中,从而构建一致的、高可用的 KV 存储系统,应用到元信息管理等场景。

三、DLedger 的优化

1. 性能优化

Raft 协议复制过程可以分为四步,先是发送消息给 leader,leader 除了本地存储之外,会把消息复制给 follower,然后等待follower 确认,如果得到多数节点确认,该消息就可以被提交,并向客户端返回发送成功的确认。DLedger 中如何去优化这一复制过程?

(1)异步线程模型

DLedger 采用一个异步线程模型,异步线程模型可以减少等待。在一个系统中,如果阻塞点越少,每个线程处理请求时能减少等待,就能更好的利用 CPU,提高吞吐量和性能。

以 DLedger 处理 Append 请求的整个过程来讲述 DLedger 异步线程模型。图中粗箭头表示 RPC 请求,实现箭头表示数据流,虚线表示控制流。

首先客户端发送 Append 请求,由 DLedger 的通信模块处理,当前 DLedger 默认的通信模块是利用 Netty 实现的,因此 Netty IO 线程会把请求交给业务线程池中的线程进行处理,然后 IO 线程直接返回,处理下一个请求。业务处理线程处理 Append 请求有三个步骤,首先是把 Append 数据写入自己日志中,也就是 pagecache 中。然后生成 Append CompletableFuture ,放入一个 Pending Map 中,由于该日志还没有得到多数的确认,所以它是一个判定状态。第三步唤醒 EnrtyDispatcher 线程,通知该线程去向follower 复制日志。三步完成以后业务线程就可以去处理下一个 Append 请求,中间几乎没有任何等待。

另一方面,复制线程 EntryDispatcher 会向 follower 复制日志,每一个 follower 都对应一个 EntryDispatcher 线程,该线程去记录自己对应 follower 的复制位点,每次位点移动后都会去通知 QurumAckChecker 线程,这个线程会根据复制位点的情况,判断是否一条日志已经复制到多数节点上,如果已被复制到了多数节点,该日志就可以被提交,并去完成对应的 Append CompletableFuture ,通知通信模块向客户端返回响应。

(2)独立并发的复制过程

在 DLedger 中,leader 向所有 follower 发送日志也是完全相互独立和并发的,leader 为每个 follower 分配一个线程去复制日志,并记录相应的复制位点,然后再由一个单独的异步线程根据位点情况检测日志是否被复制到了多数节点上,返回给客户端响应。

(3)日志并行复制

传统的线性复制是 leader 向 follower 复制日志,follower 确认后下一个日志条目再复制,也就是 leader 要等待 follower 对前一条日志确认后才能复制下一条日志。这样的复制方式保证了顺序性,且不会出错,但吞吐量很低,时延也比较高,因此DLedger设计并实现日志并行复制的方案,不再需要等待前一个日志复制完成再复制下一个日志,只需在 follower 中维护一个按照日志索引排序请求列表, follower 线程按照索引顺序串行处理这些复制请求。而对于并行复制后可能出现数据缺失问题,可以通过少量数据重传解决。

2. 可靠性优化

(1)DLedger对网络分区的优化

如果出现上图的网络分区,n2与集群中的其他节点发生了网络隔离,按照 raft 论文实现,n2会一直请求投票,但得不到多数的投票,term 一直增大。一旦网络恢复后,n2就会去打断正在正常复制的n1和n3,进行重新选举。为了解决这种情况,DLedger 的实现改进了 raft 协议,请求投票过程分成了多个阶段,其中有两个重要阶段:WAIT_TO_REVOTE和WAIT_TO_VOTE_NEXT。WAIT_TO_REVOTE是初始状态,这个状态请求投票时不会增加 term,WAIT_TO_VOTE_NEXT则会在下一轮请求投票开始前增加 term。对于图中n2情况,当有效的投票数量没有达到多数量时。可以将节点状态设置WAIT_TO_REVOTE,term 就不会增加。通过这个方法,提高了Dledger对网络分区的容忍性。

(2)DLedger 可靠性测试

DLedger 还有非常高的容错性。它可以容忍各种各样原因导致节点无法正常工作,比如:

● 进程异常崩溃
● 机器节点异常崩溃(机器断电,操作系统崩溃)
● 慢节点(出现 Full GC,OOM 等)
● 网络故障,各种各样的网络分区

为了验证 DLedger 对这些故障的容忍性,除了本地对 DLedger 进行了各种各样的测试,还利用分布式系统验证与故障注入框架 Jepsen 来检测 DLedger 存在的问题,并验证系统的可靠性。

Jepsen 框架主要是在特定故障下验证系统是否满足一致性。Jepsen 验证系统由 6 个节点组成,一个控制节点(Control Node),五个 DB 节点(DB Node)。控制节点可以通过 SSH 登录到 DB 节点,通过控制节点的控制,可以在 DB 节点完成分布式系统的下载,部署,组成一个待测试的集群。测试开始后,控制节点会创建一组 Worker 进程,每一个 Worker 都有自己的分布式系统客户端。Generator 产生每个客户端执行的操作,客户端进程将操作应用于待测试的分布式系统。每个操作的开始和结束以及操作结果记录在历史记录中。同时,一个特殊的 Client 进程 Nemesis 将故障引入系统。测试结束后, Checker 分析历史记录是否正确,是否符合一致性。

根据 DLedger 定位,它是一个基于 raft 协议的 commitlog 存储库,是一个 append only 的日志系统,采用 Jepsen 的 Set模型进行测试。Set 模型的测试流程分为两个阶段。第一阶段由不同的客户端并发地向待测试集群添加不同的数据,中间会进行故障注入。第二阶段,向待测试集群进行一次最终读取,获得读取的结果集。最后验证每一个成功添加的元素都在最终结果集中,并且最终的结果集也仅包含企图添加的元素。

上图是 DLedger 其中一次测试结果,有30个客户端进程并发地向待测试的 DLedger 集群添加数据,中间会引入随机对称网络分区,故障引入的间隔时间默认是30s,也就是30s正常运行,30s故障引入,再30s正常运行、30s故障引入,一直循环。整个阶段一共持续600s。可以看到最后一共发送了16万个数据,中间没有出现数据丢失,lost-count=0,也没有出现不应该存在的数据,uexpected-count=0,一致性测试通过。

上图展示了该次测试中客户端对DLedger集群每一次操作情况,蓝色小框表示添加成功,红色小框表示添加失败,黄色小框表示不确定是否添加成功(比如多数认证超时),图中灰色部分表示故障引入的时间段。可以看出一些故障引入时间段造成集群短暂不可用,一些故障时间段则没有,这是合理的。因为是随机网络隔离,所以需要看隔离的节点会不会造成集群重新选举。但即使造成集群重新选举,一段时间后,DLedger集群也会恢复可用性。

除了测试对称网络分区故障,还测试了其他故障下 Dledger 表现情况,包括随机杀死节点,随机暂停一些节点的进程模拟慢节点的状况,以及 bridge、partition-majorities-ring 等复杂的非对称网络分区。在这些故障下,DLedger 都保证了一致性,验证了 DLedger 有很好可靠性。

四、DLedger 未来发展

DLedger 接下来的计划包括:

● Leader 节点优先选择
● RocketMQ on DLedger 的Jepsen 测试
● 运行时成员变更
● 增加观察者(只参与复制,不参与投票)
● 构建高可用的K/V存储
● ……

DLedger 现在是在 OpenMessaging 下的一个项目,欢迎社区的同学一起加入,来构建高可用高性能的 commitlog 存储库。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不服来战!青藤发起“雷火引擎”公测赛 百万赏金寻顶尖白帽

2020年春天,以5G、人工智能、云计算为代表的“新基建”蔚然成风,着眼国家数字经济体系建设,打造数字经济体系底座的“新基建”,无疑成为中国经济整体应对未来发展的核心方案。可以说,没有任何一个时期比现在更能够彰显…

UI2CODE系列文章|如何批量制造高质量样本

在 UI2CODE 项目中,我们大量使用了深度学习方法来做一些物体检测。而深度学习模型的训练,避免不了需要大量的样本,因此如何制造大量样本,来满足模型训练需要是我们必须要解决的一个问题。在这篇文章中,我们将介绍我们如…

javax.management.InstanceNotFoundException: org.springframework.boot:type=Admin,name=SpringApplicati

控制台service端打印javax.management.InstanceNotFoundException: org.springframework.boot:typeAdmin,nameSpringApplication 那个报的就点哪个,将红圈里的对勾去掉 就ok了!

极测未来|淘宝千人千面内容下的智能评测技术与实践

背景挑战 全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化,给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验…

新时代 新营销 新增长, 纷享销客重磅发布CRM7.0产品,持续赋能企业数字化未来

2020年4月26日,主题为“新时代 新营销 新增长”的纷享销客2020销售增长大会暨春季战略与新品发布会,在GMIC大会期间成功举办。纷享销客创始人&CEO罗旭发表“新时代 新营销 新增长”的主题演讲,同时重磅发布纷享销客连接型CRM7.0新品。 这…

python3-matplotlib基本使用(以折线图为例)

1、什么是matplotlib Matplotlib 是 Python 中最受欢迎的数据可视化软件包之一,支持跨平台运行,它是 Python 常用的 2D 绘图库,同时它也提供了一部分 3D 绘图接口。Matplotlib 通常与 NumPy、Pandas 一起使用,是数据分析中不可或…

flowable 开源项目

企业级工作流引擎开源项目 文章目录一、工作流引擎flowable1. flowable2. cims3. RuoYi-flowable4. springboot-flowable-modeler5. flowable-diagram二、工作流引擎activiti2.1. RuoYi-Vue-Process2.2. RuoYi-Process2.3. ruoyi-vue-activiti2.4. activiti7-workflow2.5. JeeS…

看!闲鱼在ServiceMesh的探索和实践

背景: 在阿里服务端开发以Java为主的大背景下,其他异构语言业务如何调用现有Java服务,如何与集团中间件打通,就成为使用非Java语言团队必须要解决的首要问题。 已有方案问题: 在ServiceMesh方案成熟之前&#xff0c…

编译错误 错误:PL/SQL: ORA-00932: 数据类型不一致: 应为 DATE, 但却获得 NUMBER 行

文章目录1. 现象2. 分析3. 解决方案通过存储过程将临时B表中的数据同步到轨迹表中 1. 现象 PROCEDURE LABS.ASSET_LOANP 编译错误错误:PL/SQL: ORA-00932: 数据类型不一致: 应为 DATE, 但却获得 NUMBER 行:17 文本:(select n.*, trunc(DBMS_R…

如何保证 HBase 服务的高可用?看看这份 HBase 可用性分析与高可用实践吧!

来源 | 阿丸笔记责编 | Carol头图 | CSDN 下载自视觉中国HBase作为一个分布式存储的数据库,它是如何保证可用性的呢?对于分布式系统的CAP问题,它是如何权衡的呢?最重要的是,我们在生产实践中,又应该如何保证…

python3-matplotlib绘制散点图、绘制条形图

matplotlib 支持的图形 https://matplotlib.org/stable/gallery/index.html 1、绘制散点图 from matplotlib import pyplot as plt from matplotlib import font_manager# y_3是三月每天的最高温度 y_10 是十月每天的最高温度 y_3 [11,17,16,11,12,11,12,6,6,7,8,9,12,…

ORA-01858: 在要求输入数字处找到非数字字符 13行

文章目录1. 现象2. 分析3. 解决方案ORA-01858: 在要求输入数字处找到非数字字符13行 1. 现象 insert /*append*/ into ASSET_LOAN(select * from ASSET_LOANB );commit;2. 分析 由于ASSET_LOANB表和ASSET_LOAN表字段顺序不一致导致的 具体分析:由于ASSET_LOANB表倒数…

牛!Python 全栈必备的 150 个实战案例,一次性获得!

Python 全栈将是你升职加薪的硬通货。我见过很多的 Python 讲解教程和书籍,它们大都这样讲 Python 的:先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Python 的 list, dict, tuple 等数据结构,然后再介绍字符…

数据权限实现

权限框架可以根据用户所属角色决定有权限看到的菜单资源权限。 同一个资源下的同一个菜单的数据权限需要单独处理。 案例:一部门的张三和二部门的李四都是普通用户角色,普通用户都有用户管理的查询权限,但是,一部门的张三只能看到…

遍地开花的 Attention ,你真的懂吗?

阿里妹导读:曾被 paper 中各种各样的 Attentioin 搞得晕晕乎乎,尽管零零散散地整理过一些关于Attention 的笔记,重点和线索依然比较凌乱。今天,阿里巴巴工程师楠易,将 Attentioin 的知识系统性地梳理、回顾、总结&…

Wrapper+map实现页面显示

文章目录1. 查询用户数据map集合2. map集合参数拼装1. 查询用户数据map集合 2. map集合参数拼装 用户角色和部门名称,根据角色ID和部门id分别查询替换,简言之:需要的内容分别通过单独查询数据库得到,然后通过遍历依次对比&#xf…

手淘促活那些事儿 | 智能投放算法框架助力用户增长

导读:本文主要介绍以手淘促活为目的的全链路智能投放算法框架,该框架目前接入以 Pagani 为核心的全链路运营平台,首先使用用户意图识别算法圈选出目标人群,然后借助物料智能推荐和权益动态面额等算法实现全链路上用户的个性化触达…

天天用Redis,持久化方案你又知道哪些?

来源 |码猿技术专栏责编 | Carol头图 | CSDN 下载自视觉中国Redis目前已经成为主流的内存数据库了,但是大部分人仅仅是停留在会用的阶段,你真的了解Redis内部的工作原理吗?今天这篇文章将为大家介绍Redis持久化的两种方案,文章将会…

万万没想到,JVM内存结构的面试题可以问的这么难?

在我的博客中,之前有很多文章介绍过JVM内存结构,相信很多看多我文章的朋友对这部分知识都有一定的了解了。 那么,请大家尝试着回答一下以下问题: 1、JVM管理的内存结构是怎样的? 2、不同的虚拟机在实现运行时内存的…

Serverless 落地挑战与蚂蚁金服实践

目前 Serverless 已成为云原生社区关注的重点之一,有人说它是微服务的继承者,将会彻底改变软件研发的现状,那么真实情况如何呢?本文将介绍 Serverless 市场观察、落地挑战,以及蚂蚁金服对 Serverless 的实践。 Server…