Kafka入门介绍一

介绍

Kafka是一个分布式系统,由服务器和客户端组成,通过高性能TCP网络协议进行通信。它可以部署在本地和云中的裸机硬件、虚拟机和容器上环境。

服务器:Kafka作为一个或多个服务器的群集运行,这些服务器可以跨越多个数据中心或云区域。其中一些服务器构成了存储层,称为代理。其他服务器运行KafkaConnect以持续导入和导出数据作为事件流,用于将Kafka与现有系统(如关系数据库)集成,以及其他Kafka集群。为了让您实现任务关键型用例,Kafka集群具有高度可扩展性容错:如果其任何服务器发生故障,其他服务器将接管其工作以确保连续操作,不会丢失任何数据。

客户端:它们允许您编写可读、写、并并行、大规模和容错的方式处理事件流,即使在网络的情况下也是如此问题或机器故障。Kafka附带了一些这样的客户端,Kafka提供了数十个客户端社区:客户端可用于Java和Scala,包括更高级别的KafkaStreams库、Go、Python、C/C++和许多其他编程语言以及RESTAPI。

主要概念

生产者和消费者

生产者

Kafka生产者发送数据时会直接与分区领导者(leader) broker进行交互。

Kafka生产者在发送数据到Kafka集群时,会利用Kafka的分区机制来组织消息。以下是详细过程:

  • 元数据请求:Kafka生产者在初始化或定期检查更新时会从Kafka集群中的任意节点获取元数据信息,包括哪些服务器是活动的以及每个主题分区的领导者在哪里。

  • 序列化与分区选择:在发送消息之前,生产者会将消息键和值序列化成字节数组。然后,生产者根据ProducerRecord对象指定的信息来决定消息应该发送到哪个分区。如果指定了分区,则消息会被发送到该分区;如果没有指定分区但提供了键,则会使用键的哈希值与分区数取余的方式来确定分区;如果只存在值而没有键和分区指定,Kafka内部会采用Sticky partition策略随机选择一个分区。

  • 发送消息:Kafka生产者将创建的ProducerRecord对象包装好的消息发送给对应的分区领导者broker。这个过程是异步的,由一个独立线程负责管理批次并将它们发送到相应的broker上。

  • 领导者负责:由于Kafka采用领导者复制机制,生产者只需将数据发送至分区的领导者副本,领导者副本负责处理消息的存储和复制到跟随者副本(follower)。

消费者

Kafka消费者的工作方式是通过向Kafka broker发送“fetch”请求来拉取(pull)数据,不是推送(push)模式。以下是Kafka消费者的工作机制和特点:

  • 拉取数据:消费者主动从broker拉取数据,即采用pull模式。这种方式允许消费者以自己的速度处理数据,避免了因为broker推送消息过快而导致消费者处理不过来的问题。

  • 指定偏移量:在拉取数据时,消费者可以在请求中指定从哪个偏移量开始消费日志。这给了消费者很大的灵活性,它可以选择从当前偏移量开始消费,也可以选择从之前的某个偏移量开始重新消费数据。

  • 分区分配策略:Kafka中的数据被分成多个分区,消费者可以消费多个分区的数据,但每个分区的数据只能被消费者组中的一个消费者消费。Kafka提供了不同的分区分配策略,如Range分配策略、RoundRobin分配策略和Sticky分配策略等。

  • 消费者组:当一个主题的数据量很大时,可以通过消费者组来实现横向扩展。消费者组中的每个消费者可以消费不同分区的数据,从而实现负载均衡。在同一个消费者组中,每个分区只能被一个消费者消费,以避免重复处理数据。

  • 位移提交和存储:消费者在消费数据时会维护一个偏移量(offset),表示它在分区中消费到了哪个位置。这个偏移量需要定期提交给Kafka,以便在服务重启或故障恢复时能够从准确的位置继续消费。

  • 再均衡机制:当消费者组中的消费者数量发生变化时,Kafka会自动进行分区的重新分配,这个过程称为再均衡(rebalance)。再均衡确保了每个分区都有消费者负责,且每个消费者都能公平地分担负载。

  • 拦截器和反序列化:Kafka消费者提供了拦截器(Interceptor)机制,允许开发者在数据处理过程中插入自定义逻辑。此外,消费者还需要对从Kafka接收到的消息进行反序列化,将其转换为应用程序可以理解的数据格式。

  • 消费进度监控:为了确保数据处理的稳定性和可靠性,监控系统通常会跟踪消费者的消费进度,包括当前的偏移量、消费速率等信息。

主题(Topic)与分区(Partition)

,Kafka 通过主题(Topic)来组织消息,每个主题可以看作是一个独立的消息队列。为了提高系统的可伸缩性和性能,Kafka 采用了分区(Partition)机制。

在 Kafka 中,每个主题被分割成多个分区。

这些分区有以下特点和优势:

  • 并行处理:分区允许 Kafka 主题并行地处理数据。不同的分区可以在不同的服务器(Broker)上进行处理,这意味着一个主题可以扩展到多个服务器以容纳更多的数据或处理更高的吞吐量。

  • 分区复制:为了保证高可用性,每个分区可以有多个副本。在这些副本中,会选出一个作为领导者(Leader),而其他的则是跟随者(Follower)。领导者负责处理所有的读写请求,跟随者则同步领导者的数据。如果领导者发生故障,跟随者中的一个会被提升为新的领导者。

  • 负载均衡:分区还允许 Kafka 进行负载均衡。生产者可以将消息均匀地发送到不同的分区,消费者组内的每个消费者可以消费不同分区的数据,从而实现负载的分散。

  • 有序性保证:虽然分区允许并行处理,但在单个分区内,消息是按照它们进入的顺序存储的。这意味着对于单个消费者来说,即使在并行消费的情况下,从单个分区中读取的消息也是有序的。

  • 灵活的消费者偏移量管理:消费者组中的每个消费者维护着自己的偏移量(Offset),这个偏移量标记了它已经消费到了分区中的哪个位置。这使得消费者可以在服务重启或故障恢复时从准确的位置继续消费,而不是从头开始。

  • 扩展性:随着系统需求的增长,可以通过增加服务器数量和合理配置分区数量来水平扩展 Kafka 集群。

Broker 和集群(Cluster)

一个 Kafka Broker 能够处理成千上万的分区和百万量级的消息。

Kafka 的设计允许单个 Broker 具有高效的数据处理能力,这得益于以下几个方面:

  • 顺序磁盘I/O:Kafka 在写消息数据时,会为每个分区创建一个文件,并将数据顺序地追加到该文件对应的磁盘空间中。这种顺序写入的方式充分利用了磁盘的顺序访问性能,相比随机访问要高效得多。

  • 分区和并行处理:Kafka 通过将主题分为多个分区,并在不同的 Broker 上分布这些分区,实现了应用级别的水平扩展。这样,不同的分区可以并行地在不同的 Broker 上进行处理,从而提高了整体的处理能力。

  • 高效的网络通信模型:Kafka 设计了一个高效的网络通信模型来处理它与生产者(Producer)和消费者(Consumer)之间的消息传递问题。这个模型对于保持高性能至关重要。

  • 监控和度量指标:为了确保 Broker 的性能和稳定性,Kafka 提供了一系列的服务端度量指标,用于监控 Broker 的状态。这些指标包括 Kafka 本身的指标和主机层面的指标,有助于及时发现并解决可能出现的问题。

  • 集群的扩缩容能力:Kafka 集群可以通过增删 Broker 来简单地实现整个集群的扩缩容,这使得根据实际需求调整系统性能成为可能。

动手搭建kafka

1.下载压缩包

下载并解压,下载地址

$ tar -xzf kafka_2.13-3.6.1.tgz
$ cd kafka_2.13-3.6.1

2.启动kafka

注意:您的本地环境必须安装 Java 8+。
Apache Kafka 可以使用 ZooKeeper 或 KRaft 启动。要开始使用任一配置,请遵循以下部分之一,但不能同时执行两者。

使用 ZooKeeper 的 Kafka

1. 配置 zookeeper地址

修改config/server.properties文件,修改如下配置:

zookeeper.connect=127.0.0.1:2181
2.添加对外暴漏ip

修改config/server.properties文件,添加以下配置:

# 允许外部端口连接                                            
listeners=PLAINTEXT://0.0.0.0:9092  
# 外部代理地址                                                
advertised.listeners=PLAINTEXT://[本机ip]:9092

运行以下命令启动kafka

$ bin/kafka-server-start.sh config/server.properties

使用 KRaft 的 Kafka

生成集群 UUID

$ KAFKA_CLUSTER_ID="$(bin/kafka-storage.sh random-uuid)"

设置日志目录的格式

$ bin/kafka-storage.sh format -t $KAFKA_CLUSTER_ID -c config/kraft/server.properties

启动 Kafka 服务器

$ bin/kafka-server-start.sh config/kraft/server.properties

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1007: 【C1】【一维数组】【入门】数组元素的查找

题目描述 给你n个整数&#xff0c;并且给你要查找的整数k。 在n个整数中查找整数k是否存在&#xff0c;如果找到则输出k在n个整数中第一次出现的位置&#xff0c;如果找不到则输出-1 输入 第一行&#xff1a;一个整数n&#xff0c;表示有n个数 (1<n<100) 第二行&am…

React18源码: Fiber树中的全局状态与双缓冲

Fiber树构造 在React运行时中&#xff0c;fiber树构造位于 react-reconciler 包在正式解读 fiber 树构造之前&#xff0c;再次回顾一下renconciler的4个阶段 1.输入阶段&#xff1a;衔接react-dom包&#xff0c;承接fiber更新请求2.注册调度任务&#xff1a;与调度中心(schedu…

数据存储-文件存储

一、CSV文件存储 csv是python的标准库 列表数据写入csv文件 import csvheader [班级, 姓名, 性别, 手机号, QQ] # 二维数组 rows [[学习一班, 大娃, 男, a130111111122, 987456123],[学习二班, 二娃, 女, a130111111123, 987456155],[学习三班, 三娃, 男, a130111111124, …

spring aop应用---记录日志

引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency><dependency><groupId>org.apache.commons</groupId><artifactId>commons-la…

SQL 中如何实现多表关联查询?

阅读本文之前请参阅----MySQL 数据库安装教程详解&#xff08;linux系统和windows系统&#xff09; 在SQL中&#xff0c;多表关联查询是通过使用JOIN操作来实现的&#xff0c;它允许你从两个或多个表中根据相关列的值来检索数据。以下是几种常见的JOIN类型&#xff1a; …

【Vue 2】

Vue的组件化 Vue的组件化开发是一种将复杂的业务拆分为一个个独立的、可复用的组件的开发方式。组件化开 发的核心思想是将页面拆分成多个组件&#xff0c;每个组件依赖的CSS、JS、模板、图片等资源放在一起开发和维护 什么是跟组件 在Vue中&#xff0c;根组件&#xff08;…

python+django志愿者社团管理系统36uiu--pycharm

本系统结合计算机系统的结构、概念、模型、原理、方法&#xff0c;在计算机各种优势的情况下&#xff0c;采用python语言&#xff0c;结合django框架与Vue框架以及MYSQL数据库设计并实现的。基于django青年志愿者社团管理主要包括个人中心、学生管理、社团理事管理、社团新闻管…

解决Java Long类型转为Json后,前台Js调用精度丢失问题

问题描述&#xff1a; 当实体类中的字段为Long类型&#xff0c;且值超过前端js显示的长度范围时会导致前端回显错误。 后端JSON字符串{“id”: 1540951455810646018, “name”: “张三”, …}&#xff0c;前端通过data.id获取id时&#xff0c;id的值变成了1540…

Oracle EBS R12.1 FA 批量计划外折旧

在资产工作台上可以进行单个资产的计划外折旧&#xff0c;如果进行批量计划外折旧的话就需要进行开发客户化form或者webadi 进行数据上载后调用FA 标准API了 以下是标准API的demo示例 DECLAREl_trans_rec FA_API_TYPES.trans_rec_type; l_asset_hdr_rec FA_API_TYPES.asset_hdr…

查看navicat保存的数据库连接密码

背景 经常使用navicat的朋友可能会碰到忘记数据库连接密码的情况&#xff0c;自然会想到navicat连接配置中就保存了密码。 个人经验&#xff0c;按以下步骤可查看密码明文 本人在mac上使用的navicat版本 1&#xff0c;导出connection_local.ncx 点击OK导出保存为connection_l…

【奥威-金蝶云星空BI方案】你要的报表,这里都有!

用金蝶云星空来记账&#xff0c;那确实好&#xff0c;但如果让你再去做一份详细的报表呢&#xff1f;自己开发的话&#xff0c;成本大、耗时长&#xff0c;一旦有了新的需求又要一再开发&#xff0c;长此以往将增加使用者使用难度&#xff0c;降低数据分析对运营决策的时效性。…

QSettings使用示例

解决的问题&#xff1a; 平常要存储一些临时数据&#xff0c;或者ini的系统参数数据&#xff0c;以下是源码解析 如何实现&#xff1a; 实现的UI如下 主要功能&#xff1a; 初始化&#xff1a; m_settings new QSettings("DParamSetting.ini", QSettings::IniFo…

css优化的方法

CSS&#xff08;Cascading Style Sheets&#xff09;优化是前端开发中的重要环节&#xff0c;它能提高网站的性能和用户体验。以下是一些常见的CSS优化方法&#xff1a; 简化选择器&#xff1a;避免使用过于复杂的选择器&#xff0c;如深层嵌套的选择器&#xff0c;因为它们会…

Spring Security学习(七)——父子AuthenticationManager(ProviderManager)

前言 《Spring Security学习&#xff08;六&#xff09;——配置多个Provider》有个很奇怪的现象&#xff0c;如果我们不添加DaoAuthenticationProvider到HttpSecurity中&#xff0c;似乎也能够达到类似的效果。那我们为什么要多此一举呢&#xff1f;从文章的效果来看确实是多…

docker安装kafka和kafka-console-ui

3、安装kafka https://blog.csdn.net/m0_64210833/article/details/134199061 kafka依赖Zookeeper,当然也可以用内置的kraft。 安装前提条件 1.安装Zookeeper 1.1运行ZooKeeper容器 2.运行Kafka容器 2.1启动Kafka容器 3.验证 3.1进入Kafka容器 3.2查看容器状态 3.3查…

如何理解三大微分中值定理

文章看原文,自己写的只是备份 高等数学强化2:一元函数微分学 中值定理 极值点 拐点_一元函数中值定理-CSDN博客 高等数学强化3:一元函数积分学 P积分-CSDN博客 高等数学强化3:定积分几何应用-CSDN博客

2024最新互联网大厂面试题,(java,python,vue)

最近又赶上跳槽的高峰期&#xff0c;好多粉丝&#xff0c;都问我要有没有最新面试题&#xff0c;索性&#xff0c;我就把我看过的和我面试中的真题&#xff0c;及答案都整理好&#xff0c;整理了《第3版&#xff1a;互联网大厂面试题》并分类150份 PDF&#xff0c;累计 7701页&…

Flutter 如何启动新的页面时给页面传递参数

前言 前台开发&#xff0c;我们常有启动页面同时传递一些参数的需求&#xff0c;在android里面是通过Intent实现&#xff0c;本文探讨flutter的实现方式 正文 在Flutter中&#xff0c;给一个新的界面传递参数通常通过构造函数来实现 以主页面&#xff08;HomePage&#xff…

Synchornized的抢锁逻辑

Synchronized关键字在Java中是用来控制对某个对象或方法的并发访问的一种机制。它可以用来给对象或方法加锁&#xff0c;确保在同一时刻只有一个线程可以执行被synchronized保护的代码块或方法。 synchronized的抢锁逻辑&#xff1a; 锁的概念&#xff1a;在Java中&#xff0c…

Spring面试题总结

1、如何实现一个IOC容器 &#xff08;1&#xff09;配置文件包扫描路径&#xff1b; &#xff08;2&#xff09;递归包扫描获取.class文件&#xff1b; &#xff08;3&#xff09;反射、确定需要交给IOC管理的类&#xff1b; &#xff08;4&#xff09;对需要注入的类进行依…