[消息队列 Kafka] Kafka 架构组件及其特性(一)

工作中的消息队列用的是Kafka,一直没有系统的了解,这边集中整理一下。

目录

Kafka主要组件有十个部分。

1.Broker(服务器)

2.Record(消息)

3.Producer(生产者)

4.Consumer(消费者)

5.Topic(主题)

6.Partition(分区)

7.Replica(副本机制)(和分区结合起来是Kafka实现高可用和负载均衡的原理)

8.Segment(段)

9.Consumer Group(消费者组)

10.Consumer Offset(偏移量)(Kafka,单分区消息顺序消费的原因)

Kafka的整体架构

Kafka特性

1)磁盘顺序I/O(速度不亚于内存I/O)

2)索引

3)批量处理和压缩传递(海量吞吐的基础)

4)零拷贝


Kafka作为消息队列(当然它不仅仅只有消息队列这一个应用场景。)

Kafka主要组件有十个部分。

1.Broker(服务器)

a)Broker就是Kafka的服务器,用于存储和管理消息,默认是9092端口

b)生产者和Broker建立连接,将消息发送到服务器上存储起来

c)消费者跟Broker建立连接,订阅和消费服务器上存储的消息。

2.Record(消息)

a)客户端传输的数据叫做消息,在Kafka中也叫Record.

b)Record在客户端是一个KV键值对(ProducerRecord, ConsumerRecord)

c)Record在服务端是一个KV键值对(RecordBatch(批量发送) 或 Record).

3.Producer(生产者)

发送消息的一方称为生产者,

Kafka为了提升消息发送速率,生产者默认采用批量发送的方式发送消息至Broker,

一条发送多少条由参数batch.size决定(默认16K)


4.Consumer(消费者)

a)订阅,接收消息的一方叫消费者

b)消费者获取消息有两种模式:Pull模式(拉)(消费者主动从消息队列中获取消息),Push模式(推)(Broker把消息推送给消费者)

Kafka采用的是Pull模式,因为Kafka是支持大数据的,如果采用Push模式的话,海量数据可能把下游消费端给打爆,所以Kafka采用Pull模式推送消息

c)Pull模式,消费者可以控制一次到底获取多少条消息(max.pull.records 默认是500)

5.Topic(主题)


a)topic(主题)一个逻辑概念,可以理解为一组消息的集合

b)生产者和消费者通过topic进行消息的写入和读取

c)生产者发送消息时候,若topic不存在,是否自动创建:auto.create.topics.enable(建议关闭)

6.Partition(分区)


a)分区(Partition)就是把一个topic分成几个不同的部分

b)一个topic在创建时候可以划分多个分区,若没有指定,默认分区数为1,可通过参数修改(num.partitions)

c)Kafka中修改分区规则:可加,不可减

7.Replica(副本机制)(和分区结合起来是Kafka实现高可用和负载均衡的原理


a)Replica(副本)是Partition(分区)的副本,每个分区可以有若干个副本(但是不能超过集群数量)

b)副本必须在不同的Broker上,副本包括了主从节点(Leader(图片中蓝色部分),Foller(图片中灰色部分))

c)服务端可以通过参数控制默认副本数(offsets.topic.repilication.factor)(一般不这样用,一般直接通过命令设置副本数)

生产者只会往leader节点发送消息,消费者也只会从leader节点读取消息,Kafka通过将各消息的leader节点放在不同的Broker(也就是服务器)上,实现了负载均衡,然后个分区follower节点实现了高可用

8.Segment(段)

Kafka的数据文件是写在.log文件里面的,另外一起还对生成对应的索引.index文件和对应的时间.timeIndex文件。

但是很容易的可以理解,如果一直往一个log文件里面追加数据,那么长时间使用之后log文件的的查找会随着数据量变大而变慢,所以在这种情况下就引入了Segement段的概念。

a)Segement(端)的目的是:建一个分区的数据划分、存储到不同的文件中

b)每个Segment至少由一个数据文件和2个索引文件构成,3个文件是成套出现的。

c)引入段的意义:

加快查询效率

删除数据时减少逐条IO

d)Segement大小控制:

按时间周期生成 log.roll.hours(默认一周)

按文件大小生产 log.segment.bytes(默认1G)

9.Consumer Group(消费者组)

​​​​​​​

由于生产者可能短时间内生产大量消息,为了提升消息的消费速率,就增加了消费者组的概念(group id)

a)使用消费者组,提升消费效率和吞吐量

b) 同一个Group中的消费者,不能消费相同的分区(group id相同,在一个组内)

10.Consumer Offset(偏移量)(Kafka,单分区消息顺序消费的原因)

Kakfa在单分区里面的消息是顺序存储的。

a)Offset(偏移量)的目的在于:记录消费者的消费位置

b)Kafka现行版本将Offset保存在服务器(__consumer_offsets_)主题中(0.9版本以前是在zooKeeper中)

Kafka的整体架构

上图所示:

集群中有三个Broker,有两个topic,都有三个副本,topic0有两个分区,分区1(图中左上角的Partition(0))的leader在Broker0中,分区2leader在Broker1中,topic1的分区leader在broker2中。

生产者往leader分区(蓝色部分)发送消息时候,leader节点会向follower节点同步备份消息(绿色线条部分)。然后每个消费者组对消息进行消费(红色箭头部分)(想通消费者组的消费者不能消费同一个分区的消息)

Kafka特性

1)磁盘顺序I/O(速度不亚于内存I/O)

Kafka采用的是磁盘顺序I/O

磁盘顺序I/O相对于随机I/O不同点在于:

随机I/O,数据存储在磁盘的位置是分散的,所以需要多次磁盘寻址来读取和写入数据。

但是顺序I/O只需要一次磁盘寻址。去除了重复寻址的过程。Kafka的记录是不断追加到本地磁盘的末尾的,所以是顺序I/O。

2)索引

Kafka在Broker端提供了offset索引和timeIndex(时间戳)索引,两种索引采用了稀疏索引的方案

3)批量处理和压缩传递(海量吞吐的基础)

在收发消息的时候批量处理。

压缩算法进行压缩后传递(gzip等)

4)零拷贝

传统的I/O拷贝如上图:

数据文件从磁盘到网卡,会经过四次从用户态到内核态切换。比较耗时

但是Kafka采用的是linux中的sendfile()函数,采用的是零拷贝的技术,使得读写有比较高的提升

对应的java源码中使用的是transferTo函数

以上就是Kafka整体架构,主要组件和对应的特性。后续还会记录几个主要组件的原理帮助理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Coolmuster Android助手评测:简化Android到电脑的联系人传输

产品概述 Coolmuster Android助手是一款旨在简化Android设备与计算机之间数据管理和传输过程的全面工具。它以用户友好的界面和全面的功能,成为寻求高效数据管理解决方案的Android用户的热门选择。 主要特点和功能Coolmuster Android助手拥有一系列使其成为管理Andr…

XR模拟的巨大飞跃,Varjo如何塑造战斗机飞行员培训的未来

随着虚拟现实技术的不断发展,拥有直通功能的XR技术被广泛应用于各种虚拟培训项目之中,能够完美混合虚拟与现实环境的XR技术能够最大限度的优化培训效果并有效减少仿真培训中的成本消耗。 技术总部位于加利福尼亚州南旧金山的Aechelon是集培训、模拟和娱乐…

盛夏之约,即将启程,2024中国北京消防展将于6月26举行

盛夏之约,即将启程,2024中国北京消防展将于6月26举行 盛夏之约,即将启程!备受瞩目的2024中国(北京)消防技术与设备展览会将于6月26-28 日在北京.首钢会展中心盛大召开。作为消防安全和应急救援的年度盛会&…

转让北京海淀成立满1年拍卖公司许可证条件和流程

拍卖经营批准证书是拍卖企业经营所需的许可,是为了维护拍卖秩序,保护拍卖活动各方合法权益而颁发的合法凭证。其中个人物品,公司物品,或者国有资源的拍卖可通过普通拍卖资质进行拍卖。而文物古董拍卖类的需取得文物拍卖经营许可证…

Cortex系列详解

Cortex系列属于ARMv7架构(ARM公司在经典处理器ARM11以后的产品改用Cortex命名) 一、Cortex-A系列 “A”系列面向尖端的基于虚拟内存的操作系统和用户应用。 A 系列处理器适用于具有高计算要求、运行丰富操作系统以及提供交互媒体和图形体验的应用领域。 具体案例如:智能手…

course-nlp——6-rnn-english-numbers

本文参考自https://github.com/fastai/course-nlp。 使用 RNN 预测数字的英文单词版本 在上一课中,我们将 RNN 用作语言模型的一部分。今天,我们将深入了解 RNN 是什么以及它们如何工作。我们将使用尝试预测数字的英文单词版本的问题来实现这一点。 让…

K210视觉识别模块学习笔记4: (MaixHub)训练与使用自己的模型_识别字母

今日开始学习K210视觉识别模块: 模型训练与使用_识别字母 亚博智能的K210视觉识别模块...... 固件库: maixpy_v0.6.2_52_gb1a1c5c5d_minimum_with_ide_support.bin 文章提供测试代码讲解、完整代码贴出、测试效果图、测试工程下载 这里也算是正式开始进入到视觉识别的领域了…

【Python】教你彻底了解Python中的正则表达式

​​​​ 文章目录 一、正则表达式的基本概念1. 元字符2. 特殊序列 二、Python中正则表达式的使用方法1. 导入re模块2. 匹配(match)3. 搜索(search)4. 查找所有匹配(findall)5. 替换(sub&#…

linux实验报告

实验一:Linux操作系统的安装与配置 实验目的: 1.掌握虚拟机技术; 2.掌握Linux的安装步骤; 3.掌握安装过程中的基本配置要求。 4.掌握正确启动Linux的方法; 5.掌握正确退出Linux的方法; 6.熟悉已安装…

在人工智能背景下,程序员要有什么职业素养,怎么改进

文章目录 1. 持续学习和适应能力原因改善方法 2. 跨学科知识原因改善方法 3. 高效的计算资源利用原因改善方法 4. 模型解释性和可控性原因改善方法 5. 数据隐私和安全意识原因改善方法 在AI大模型的背景下,程序员要有什么职业素养,怎么改进,才…

激活函数对比

激活函数 sigmoid / tanh / relu / leaky relu / elu / gelu / swish 1、sigmoid 优缺点 1) 均值!0,导致fwxb求导时,方向要么全正要么全负 可以通过batch批量训练来缓解 2) 输入值大于一定范围梯度就会消失 3) 运算复杂 2、tanh 优缺点 1) 均值0 2)…

使用jspdf将html页面生成pdf文件

1、下载jspdf插件包 npm i jspdf2、在utils文件夹下创建一个单独的文件(名字无具体要求) // 页面导出为pdf格式,title表示为下载的标题,html表示要下载的页面 import html2Canvas from html2canvas // 不用单独去下载这个包&…

【Mybatis】动态SQL标签2

choose (when, otherwise)标签是使用举例 类似switch...case,从上到下匹配,找到匹配的条件,就结束匹配其他的! set标签是使用举例 set这个标签是用在更新操作上的 set标签代替sql中的set关键字,可以把set语句后多余的…

大模型产品层出不穷,如何慧眼识珠?

先预祝亲爱的读者们“端午安康“ 大模型百花齐放,选择难上加难 面对眼前层出不穷的大模型产品,许多人会不禁感到困惑:哪个才是真正适合自己的爆款大模型?在中国本土 alone,就有百来个大模型产品,简直是五花八门&…

python怎么下载numpy

安装Python step1:官网下载安装包; https://www.python.org/ 我下载的是python-3.4.4.msi step2:python环境变量配置; 计算机-属性-高级系统设置-环境变量-系统变量 找到PATH,点击编辑,加英文分号;在…

【Text2SQL 论文】T5-SR:使用 T5 生成中间表示来得到 SQL

论文:T5-SR: A Unified Seq-to-Seq Decoding Strategy for Semantic Parsing ⭐⭐⭐ 北大 & 中科大,arXiv:2306.08368 文章目录 一、论文速读二、中间表示:SSQL三、Score Re-estimator四、总结 一、论文速读 本文设计了一个 NL 和 SQL 的…

【设计模式深度剖析】【3】【行为型】【职责链模式】| 以购物中心客户服务流程为例加深理解

👈️上一篇:命令模式 设计模式-专栏👈️ 文章目录 职责链模式定义英文原话直译如何理解呢? 职责链模式的角色1. Handler(抽象处理者)2. ConcreteHandler(具体处理者)3. Client(客户…

【Vue】普通组件的注册使用-局部注册

文章目录 一、组件注册的两种方式二、使用步骤三、练习 一、组件注册的两种方式 局部注册:只能在注册的组件内使用 ① 创建 .vue 文件 (三个组成部分) 以.vue结尾的组件,一般也叫做 单文件组件,即一个组件就是组件里的全部内容 ② 在使用的组…

Qt窗口与对话框

目录 Qt窗口 1.菜单栏 2.工具栏 3.状态栏 4.滑动窗口 QT对话框 1.基础对话框QDiaog 创建新的ui文件 模态对话框与非模态对话框 2.消息对话框 QMessageBox 3.QColorDialog 4.QFileDialog文件对话框 5.QFontDialog 6.QInputDialog Qt窗口 前言:之前以上…

Linux驱动开发笔记(三)平台设备驱动

文章目录 前言一、Linux的设备模型1. 总线1.1 bus_type结构体1.2 注册/注销总线 2. 设备2.1 device结构体2.2 内核注册/注销设备 3. 驱动3.1 device_driver结构体3.2 注册/注销驱动 4. attribute属性文件4.1 attribute_group结构体4.2 设备属性文件4.3 驱动属性文件4.3. 总线属…