Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程

前置知识

Kafka基本概念icon-default.png?t=N7T8https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501

1. Kafka集群启动

Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。

broker是Kafka集群中的一个角色,Kafka集群中有两个角色,分别是broker和controller。其中broker服务生产和消费数据,以及集群中数据同步等,而controller则是负责协调各个broker,维护集群的元数据信息,那么什么是集群的元数据。

Kafka集群中由生产者生产的数据叫消息,而集群的状态信息,如集群节点信息,主题信息,主题分区信息,等等。

在传统的zookeeper模式下,所有节点都有broker角色,并在集群启动时会选择一个broker节点作为controller节点,其他节点从zookeeper集群中存储和拉取集群元数据,controller负责将各种集群元数据信息的更改注册到zookeeper集群中。 

而在Kraft模式下,集群元数据交由Kafka自身管理,集群中各个节点可以在broker和controller中通过配置项选择自己的角色(可以两个都选择),而被选择为controller的节点会在内部进行选举,选举出一个真正的controller,而其他未被选举为controller的节点则是在当前controller的节点意外宕机时发挥作用。

由于所有broker节点都需要向controller节点发起注册,所以在Kraft模式下,controller节点选举出来之前,其他节点无法正常启动。而Zookeeper中controller的选举时通过各个broker节点在zookeeper集群中创建临时有序节点来竞争controller角色,所以只需要一个broker就可以完成选举。

2. controller选举流程

当集群第一次启动或集群中的controller角色节点宕机时会触发controller的重新选举,在zookeeper模式和kraft模式下,两者略有不同。

zookeeper模式

在zookeeper模式下,在集群第一次启动时会创建临时有序节点来争夺controller角色,在当前controller角色意外宕机后,zookeeper会查找当前的临时有序节点中序号最小的broker,继续当controller,换句话说,谁先启动,谁当controller。这一过程在上面的图片中已经很好的解释了。

kraft模式

在kraft模式下,集群节点通过具有controller角色的节点来进行controller节点的选举和投票。在Kafka集群正常运行的过程中其他为当选controller的controller角色节点会持续的和当前controller维持心跳机制,当未当选节点发送的心跳信号在一定时间内的不到回应时,其会认为当前controller已经宕机,然后这个节点会变为candidate节点。

candidate携带着任期号和日志信息,向其他带有controller角色的节点发起投票。candidate节点首先会提高自己的任期号(初始值是0),向其他的节点发起投票请求,其他节点在接收请求时会比较任期号和日志信息,判断对方的信息是否比自己的信息更新。如果对方的信息更新,那么则会投票给对方,并且将自己的任期号更新至和对方一样(如果日志信息不满足,但任期号比自己大,当前节点也不会投票给对方,不过仍然会更新自己的任期号)。

当一个candidate获取了大多数节点的投票后则会当选新的controller,不过因为其并没有获取全部节点投票,所以其仍然有可能没有一部分节点的数据内有的数据,所以其他在上任controller后还要向其他节点拉取数据,以保证不丢失数据。

3. 消息生产和消费流程

当controller成功选举后,broker可以成功完成注册,Kakfa集群就可以成功启动,紧接着便可以开始进行消息的生产和消费 。

消息的真题流程包括生产生产消息,经过序列化变成二进制数组后传入Kafka集群的制定主题,通过轮训算法进入制定分区。消费者组则在组协调器的指挥下,消费者消费组协调器指定的分区,并获取对应分区当前消费分区的偏移量。具体流程如下图

 这是主题只有一个副本的情况下,当我们创建主题制定多个副本时,Kafka集群会创建当前主题的多个副本,并分别存储在不同的broker中,并且副本数量可以随意指定,但不能超过broker数量,这也就是说一个主题可能会出现在其中一些broker,而不是全部borker。

不过这并不会影响到集群功能,因为虽然有些broker没有对应的主题,但其中保存的集群元数据却记录了哪些broker有这个主题,所以broker依旧可以操作对应主题的数据。

Kafka并不会讲生产者生产的消息发往所有的主题副本,因为消息数量通常很多,如果Kafka讲每个消息都发送多份,势必会极大的影响Kafka的性能,所以主题之间也存在着数据同步的过程。而既然数据同步的过程即然存在,那么也就必然会存在着Leader和Follower的关系,不过这种关系并非建立在主题之间,而是建立在分区之间,换句话说,不存在某个主题副本是leader,而是当前主题副本的某个分区副本是Leader,其他主题副本的分区从这个Leader中同步数据,并且一个主题副本也不是其中所有的分区都是Leader,而是有的分区是Leader,有的是Follower,这样说起来很难理解,所以假设我们在三主机集群中创建三分区的主题副本,创建三份,内容如下图:

可以看到图中三个分区分别有三个Leader,而这三个Leader也分布在三个主题副本之,Kafka在实际的Leader分布上,也会尽可能做到平均分布,一方面是因为Leader主要处理消息的进入,如果都集中在一个borker上,会造成压力过大。另一方面,Leader中保存着整个主题的最新数据,如果某一个主机宕机,也可以防止因为意外,所有Leader数据丢失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门——16C++11新特性

1.列表初始化 初始化列表时,可添加等号(),也可不添加。 struct Point {int _x;int _y; };int main() {int x1 1;int x2{ 2 };int array1[]{ 1, 2, 3, 4, 5 };int array2[5]{ 0 };Point p{ 1, 2 };// C11中列表初始化也可以适用于new表达式中int* pa …

SpringBoot文档之Profiles的阅读笔记

Reference Core Features Profiles 类似Maven的Profile特性,限定配置项取值的生效场景。 在代码中,对于使用注解Component、Configuration、ConfigurationProperties标记的类,可以增加Profile,限定前述类的生效场景。 类似如下样…

jstack结果提取特定线程池线程的堆栈

这里假设你已经知道如何定位java进程PID,以及如何执行jstack命令进行导出,下面仅提供相关命令,及示例 ps aux|grep java jstack 8229 > jstack_output.log v1版本 grep second jstack_output.log 如果此时我们想重点关注一下下面这个线程…

Spark大数据分析案例

目录 案例概述环境搭建1. Spark单机环境2. Spark集群环境 数据集数据预处理 Spark作业编写提交Spark作业 数据可视化可能遇到的问题及解决方法结论 案例概述 本案例将介绍如何在单机和集群环境下使用Apache Spark进行大数据分析,最终使用Python实现数据的可视化。我…

高性价比全屋智能家居解决方案,提升生活幸福感!

在快节奏的城市生活中,公司、住宅两点一线的上班族不在少数。近年来,随着物联网、大数据技术的不断发展与5G的广泛普及,生活品质的提升成为上班族新的关注焦点。忙碌的工作时间结束后,智慧家居系统打造便捷、安全、智能、舒适的居…

32-hashmap linkedmap treemap 的区别

‌HashMap‌、‌LinkedHashMap‌和‌TreeMap‌是Java中三种常用的Map实现,它们在数据结构、有序性、性能和线程安全性等方面有所不同。 ‌数据结构‌: ‌HashMap‌:基于哈希表数据结构实现,通过计算键的哈希值来确定存储位置。它不…

ptrade排坑日记——定时任务执行后,文件权限会变化。

前言 今天要和大家分享的是使用ptrade的定时任务过后,执行的时候,文件权限会发生变化! 一、问题描述 定时任务执行后, /home/fly/data/fundamentals_daily/all.pickle、/home/fly/data/valuation_new/all.pickle 文件权限会从…

(javaweb)SpringBootWeb案例(毕业设计)案例--部门管理

目录 1.准备工作 2.部门管理--查询功能 3.前后端联调 3.部门管理--新增功能 1.准备工作 mapper数据访问层相当于dao层 根据页面原型和需求分析出接口文档--前后端必须遵循这种规范 大部分情况下 接口文档由后端人员来编写 前后端进行交互基于restful风格接口 http的请求方式…

文书智能助手

背景 司法、医疗等行业存在着大量的文书,一份文书或者卷宗少则几十页,多则几万页。在查看和检查这些文书时,会遇到大量的信息。当需要查询进一步的详细内容时,往往需要选择一下文字,然后再在各种系统中 查询详细的信息…

日拱一卒(4)——leetcode学习记录:路径总和

一、任务: 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径,这条路径上所有节点值相加等于目标和 targetSum 。如果存在,返回 true ;否则,返回 false 。 叶…

二叉树(四)

一、二叉树的性质 二、练习 1.某二叉树共有399个节点,其中有199个度为2的节点,则二叉树中的叶子节点数为( )。 A.不存在这样的树 B.200 C.198 D.199 答案:B 参考二叉树的性质第三条 2.在具有2…

实现一个自定义STL类模版DataStorage

(Owed by: 春夜喜雨 http://blog.csdn.net/chunyexiyu) 参考:https://tool.oschina.net/uploads/apidocs/cpp/en/cpp/container/vector.html 参考:https://tool.oschina.net/uploads/apidocs/cpp/en/cpp/iterator/reverse_iterator.html 参考&#xff1a…

【Hadoop】核心组件深度剖析:HDFS、YARN与MapReduce的奥秘

🐇明明跟你说过:个人主页 🏅个人专栏:《大数据前沿:技术与应用并进》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、Hadoop简介 2、Hadoop生态系统概览 二、Hadoo…

[Sqlserver][索引]SQL Server 索引概述

SQL Server 索引概述 索引简介 目的:提升SQL Server性能,加快查询速度,减少响应时间。限制:合理使用索引,避免过多索引影响数据更新操作和浪费硬盘空间。 索引分类 唯一索引 (UNIQUE):确保索引值唯一。…

如何做萤石开放平台的物联网卡定向?

除了用萤石自带的4G卡外,我们也可以自己去电信、移动和联通办物联网卡连接萤石云平台。 1、说在前面 注意:以下流程必须全部走完,卡放在设备上才能连接到萤石云平台。 2、大致流程 登录官网→下载协议→盖章(包括骑缝章&#…

源码阅读入门:以ArrayList为例

阅读源码是提升编程技能的重要方法。以Java集合框架中的ArrayList为例,引导如何有效地阅读和理解源码。 第一步:选择合适的源码 选择合适的源码是成功的第一步。对于初学者来说,可以从简单的类开始,比如String、ArrayList或者HashMap。 第二…

Content-Type 和 请求体

Content-Type 和请求体-经验笔记 概述 在 Web 开发中,Content-Type 是 HTTP 头部的一个重要组成部分,它指定了客户端发送给服务器的数据格式。理解 Content-Type 的含义及如何使用它是构建高效且兼容性良好的 API 的基础。 Content-Type 基础 定义&a…

开闭原则(Open-Closed Principle, OCP)详解

开闭原则(Open-Closed Principle, OCP)详解 在软件设计领域,设计模式是解决问题的一套经过验证的、可复用的设计方案。设计模式中的六大原则为软件开发提供了重要的指导,其中开闭原则(Open-Closed Principle, OCP&…

多平台编译libexif

下载地址:https://github.com/libexif/libexif/releases 1. ubuntu x64 (银河麒麟系统aarch64步骤相同) # 解压 > tar -jxvf libexif-0.6.24.tar.bz2 > cd libexif-0.6.24 # 配置 > ./configure # 编译 > make # 安装 > mak…

leetcode + react学习

上午 后端又没进到我的需求,我请问呢? 然后继续栈和队列 的代码随想录 js里面没有特别的数据结构,一般就是用数组来模拟栈和队列。栈和队列是线性,堆是二叉树,通常用来实现优先队列。 栈适用于匹配问题。 下午 栈…