Raft算法是强领导模型,集群中只能有一个领导。
下面是raft的视频讲解:
raft
raft的三种角色及其概念
服务器节点状态一共有三种:领导者(Leader)、跟随着(Follower)、候选人(Candidate)
跟随者:接受和处理来自领导者的消息,当等待领导者心跳信息超时时,推荐自己当候选人
候选人:向其他节点发送请求投票的RPC消息,通知其他节点来投票,如果赢得了大多数选票,就晋升当领导者
领导者:处理写请求、管理日志复制、不断发送心跳信息,表示自己还活着,不要发起新的选举
选举领导者的过程
初始状态:所有节点都是跟随者
Raft算法特性时随机超时时间,每个节点等待领导者节点心跳信息的超时时间间隔是随机的。
集群中没有领导者时,等待超时时间最小的节点会因为没有等到领导者心跳信息,发生超时。
超时自荐
此时该节点就会增加自己的任期编号,并推举自己为候选人,先给自己投一张选票,然后向其他节点发送请求投票RPC消息,请它们选举自己为领导者。
选举投票
其他节点接受到候选人的RPC消息时,并且在编号为1的任期内,没有投过票,那么就把选票投给该候选人,然后增加自己的任期编号。
新领导产生
候选人在选举超时时间内赢得了大多数的选票,那么它就会成为本届任期内新的领导者。
新领导威慑维权
领导者将周期性地发送心跳消息,通知其他服务器我是领导者,阻止跟随者发起新的选举,篡权。
选举细节
1、节点间通讯方式
Raft里,服务器节点间沟通联络采用的是远程过程调用(RPC),在领导选举中,需要用到两类RPC:
1、请求投票(RequestVote)RPC,由候选人在选举期间发起,通知各个节点进行投票
2、日志复制(AppendEntries)RPC,由领导者发起,用来复制日志和提供心跳信息
2、关于任期的rules
Raft算法中的领导者是有任期的,每个任期由单调递增的数字(任期编号)标识。任期编号会随着选举的进行而变化。
Raft 算法中的任期不只是时间段,而且任期编号的大小,会影响领导者选举和请求的处理。
1、跟随者在等待领导者心跳信息超时后,推举自己为候选人,会增加自己的任期号。(在推举自己的时候就会++了)
2、一个服务器节点若检测到自己任期编号比其他节点小,更新自己的编号到较大的编号值
3、若一个候选人或者领导者检测到自己任期编号比其他节点小,会将自己恢复成跟随着状态。所以,raft 不兼容作恶节点。 只要有一个作恶节点发送“任期编号更大“的心跳消息,立马就能让这个集群变成无 leader 的,进而无法工作
4、如果一个节点接收到一个包含较小的任期编号值的请求,那么它会直接拒绝这个请求。
3、关于选举的rules
1、领导者周期性向所有跟随者发送心跳信息(不包含日志复制RPC消息)
2、如果在指定时间内,跟随者没有结收到领导者的消息,那么就自荐,发起领导者选举
3、在一次选举中,赢得大多数选票的候选人,将晋升为领导者
4、一个任期内,领导者会一直是领导者,直到它自身出现宕机等问题。当然如果出现网络延迟,也会出现重新选举的情况‘
5、在一次选举中,每一个服务器节点最多会对一个任期编号投出一张选票,并且按照“先来先服务”的原则进行投票。
如下图:
6、日志完整性高的跟随者拒绝投票给日志完整性低的候选人,即如果日志不完整的请求当主节点,如果当前的节点日志比他完整,那么就会拒绝给他投票
4、随即超时解决选票瓜分现象
• 跟随者等待领导者心跳信息超时的时间间隔,是随机的
• 当没有候选人赢得过半票数,选举无效了,这时需要等待一个随机时间间隔,也就是说,等待选举超时的时间间隔,是随机的
关于raft的领导者选举限制和局限
1.读写请求和数据转发压力落在领导者节点,导致领导者压力。
2.大规模跟随者的集群,领导者需要承担大量元数据维护和心跳通知的成本。
3.领导者单点问题,故障后直到新领导者选举出来期间集群不可用。
4.随着候选人规模增长,收集半数以上投票的成本更大。