【Java面试】十二、Kafka相关

文章目录

  • 1、Kafka如何保证消息不丢失
    • 1.1 生产者发消息到Brocker丢失:设置异步发送
    • 1.2 消息在Broker存储时丢失:发送确认机制
    • 1.3 消费者从Brocker接收消息丢失
    • 1.4 同步 + 异步组合提交偏移量
  • 2、Kafka如何保证消费的顺序性
  • 3、Kafka高可用机制
    • 3.1 集群模式
    • 3.2 分区备份机制
  • 4、Kafka数据清理机制
    • 4.1 数据存储
    • 4.2 数据清理
  • 5、Kafka实现高性能的设计
    • 5.1 零拷贝
  • 6、面试

1、Kafka如何保证消息不丢失

broker:经纪人
在这里插入图片描述
和RabbitMQ类似的分析,Kafka丢数据的可能点有:

  • 生产者发消息到Brocker的过程丢消息
  • 消息存Broker时丢了
  • 消费者从Broker接收消息后丢了

1.1 生产者发消息到Brocker丢失:设置异步发送

异步发送,传入回调逻辑,回调逻辑中,判断发送有异常时,记录日志并重试:

在这里插入图片描述

配置中设置重试次数:

在这里插入图片描述

1.2 消息在Broker存储时丢失:发送确认机制

生产者发送消息到leader,leader需要把数据同步到follower

在这里插入图片描述

发送确认机制,即返给生产者producer一个acks,当设置acks = :

  • 0:producer不等Kafka的回复,消息一扔就走。因此消息发的快,但可能丢消息
  • 1:leader收到消息后,给producer一个成功的响应,告诉它消息发送成功
  • all:leader、follower都收到消息后,才给producer一个成功的响应

在这里插入图片描述

1.3 消费者从Brocker接收消息丢失

Kafka的分区机制,即一个Topic被划分成多个分区,如图,Topic1被分为P1、P2、P3、P4,且这四个分区,又在两个不同的Broker。

现有一个消费者组,里面有三个实例consume1、consume2、consume3,负责处理topic1 的消息。topic分区的消息,只能由消费者组的唯一一个消费者处理,因此,不同的分区分给了不同的消费者,如图,consume1负责P1、P2,consume2负责P3,consume3负责P4分区。

在这里插入图片描述

每个分区里,都是按照偏移量存储数据、消费数据(分区中的每条消息,都分配了一个序号,即偏移量,从0开始自增)。消费者默认每5秒自动提交一次已经消费的偏移量,即自己处理到哪个位置了
在这里插入图片描述

如上,某个消费组的实例consumer1处理P1、P2,实例consumer处理P3。假设consumer2宕机,其负责的分区分给组里的其他实例去处理,如交给了consumer1

在这里插入图片描述

此时:

  • 如果consume2消费到了偏移量3,提交的偏移量也是3,则consumer1接手后,没任何问题
  • 如果consume2消费到了偏移量6,但提交的偏移量只到3(还没来得及提交),则consumer1接手后,会导致3~6偏移量的数据重复消费
  • 如果consume2消费到了偏移量1,但提交的偏移量到了3(消息拿走了,但还没来得及处理),则consumer1接手后,会导致1~3的消息丢失

1.4 同步 + 异步组合提交偏移量

解决这个问题,可禁用自动提交偏移量,改为手动提交:

  • 同步提交:会导致消费者在提交偏移量后阻塞,直到提交成功或失败,但偏移量准确(看重可靠性)
  • 异步提交:允许消费者继续处理其他消息,而不必等待偏移量提交的确认,但偏移量可能提交失败(看重吞吐量)
  • 同步 + 异步组合使用

组合使用,处理消息时使用异步提交,而在消费完后提交出现异常时(consumer.commitAsync方法异常),使用同步提交来确保最后一批消息的偏移量被正确提交。如此,可以在保证效率的同时,尽可能地保证偏移量的正确性

在这里插入图片描述
这样写,提交偏移量可控了,但如果消费完一条消息后,还没异步提交就断电,还是会有重复消费问题。finally里写个同步提交,可以解决异步提交时,偏移量可能提交失败(有异常)的问题,但解决不了瞬间断电宕机的问题。

再回头看瞬间断电宕机一个consumer,导致的重复消费和消息丢失问题。这么写代码,重复消费的问题还在,因此,还是要考虑幂等方案,如消费时,先判断业务ID是否存在,是则return

但消息丢失的问题就没有了,因为现在是手动提交偏移量,不存在:消息拿走了,但还没来得及处理,偏移量就被提交了(然后宕机)的情况。现在的代码是,先处理,再提交。因此,如果最坏也就是消息被处理了,但没提交偏移量,后面的consumer接手后,还是属于重复消费问题。

2、Kafka如何保证消费的顺序性

需要顺序性的场景如:聊天,A发消息的顺序 == B收消息的顺序。Kafka,一个Topic可能有多个分区,每个分区内,是有顺序的,但整个Topic的所有分区里,无顺序。因此,要顺序,可只提供一个分区。或者说,同一个业务的数据,放同一个分区。
在这里插入图片描述
以上两种写法都可,第一种写法指定分区,第二种写法用key,key被hash后,分到不同的区,因此,同一个业务,用相同的key即可。

3、Kafka高可用机制

3.1 集群模式

每一个broker,就是一个Kafka实例。 多个broker实例,组成集群。挂掉一个,其余的也能处理请求。

在这里插入图片描述

3.2 分区备份机制

一个topic有多个分区,每个分区有多个副本,其中一个是leader,另一个是follower,且follower存储在集群的其他broker实例中。如下图,topic1的分区P0,其leader在broker1,两个follower在broker1和broker2。当leader故障,Kafka会将一个follower提升为leader,且ISR的follower优先被提升。

在这里插入图片描述

ISR,即in-sync-relica,是同步复制的follower,数据更加完整,但效率不高。普通的follower,即异步复制的,不保证完整性,但性能好。
在这里插入图片描述
最后,关于ISR副本数的控制:

在这里插入图片描述

4、Kafka数据清理机制

4.1 数据存储

在这里插入图片描述

topic是一个逻辑概念,数据在磁盘,按照topic分区存,一个分区对应一个文件夹,如下图:

在这里插入图片描述
分区内部,存储了数据,且是分段存储,segment,每一段,对应三个文件,.index索引文件、.log真正的数据文件、.timeindex时间索引文件。采取分段,而不是将所有数据都放到一个文件,是因为分段后:

  • 删除已被消费的无用分段文件更方便
  • 查找数据更便捷(文件名是以偏移量命名的)

都放一个文件,不分段,则不管是删除还是查找都很烦。

4.2 数据清理

清理策略1:消息保存时间超过了指定时间,默认168h即7天。

在这里插入图片描述

清理策略2:当topic所有分区的文件总和,所占的文件大小超过配置的阈值,开始删除最久的消息。需手动开启。

在这里插入图片描述

5、Kafka实现高性能的设计

  • 消息分区:一个topic分成多个part,在不同的broker节点上。不再受单台服务器的限制,可以不受限的处理更多的数据
  • 顺序读写:磁盘顺序读写,而不是随机磁盘寻道,提升读写效率
  • 页缓存:把磁盘中的数据缓存到内存中,把对磁盘的访问变为对内存的访问。第二次读相同数据时,直接走页缓存,写时,先写到页缓存,再刷回磁盘。

在这里插入图片描述

  • 零拷贝:减少上下文切换及数据拷贝
  • 消息压缩:Kafka提供了多种数据压缩算法,东西变小了,从而减少磁盘IO和网络IO,但同时压缩也会额外损耗CPU资源
  • 分批发送:将多个消息打包批量发送,减少网络开销,默认16KB一发,如果指定时间内,不到16KB,也会发,以防消息积压

5.1 零拷贝

现在有一个producer需要发送消息,过程为:从用户空间(权限小,无法直接调用硬件资源磁盘)拷贝到内核空间的页缓存,到一定批次后,将数据写进磁盘。

在这里插入图片描述

再来一个consumer消费消息,过程为:用户空间的Kafka先在页缓存找有没这个消息,没找到则去磁盘,并拷贝到内核空间的页缓存,再拷贝到用户空间。想要把消息发送给消费者,就要用到socket连接和网卡,因此接下来是,数据从用户空间拷贝到内核空间的Socket缓冲区,再拷贝到网卡,然后发出去,经历了4次拷贝

在这里插入图片描述

而Kafka的零拷贝,即磁盘 copy到 页缓存,页缓存直接copy到网卡,只要两次拷贝。Kafka知道哪个消费者要消费消息,因此,把整个操作委托给系统,不再经过用户空间。

在这里插入图片描述

6、面试

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24778.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度搜索算法2(c++)

红与黑 题目描述 有一间长方形的房子,地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上,只能向相邻的黑 色瓷砖移动。请写一个程序,计算你总共能够到达多少块黑色的瓷砖。 输入 包括多组数据。每组数据的第一行是两个…

Vue.js ECharts使用

一、介绍 ECharts 是一个使用 JavaScript 实现的开源可视化库,涵盖各行业图表,满足各种需求。ECharts 提供了丰富的图表类型和交互能力,使用户能够通过简单的配置生成各种各样的图表,包括但不限于折线图、柱状图、散点图、饼图、雷…

02Linux文件,目录,过滤,管道常用命令

Linux基础概述 Linux基础目录 Linux没有盘符这个概念, 只有一个顶级根目录 /, 所有文件都在它下面 在Windows系统中路径之间的层级关系使用/来表示在Linux系统中路径之间的层级关系使用/来表示,出现在开头的/表示根目录, /home/a.txt表示根目录下的home文件夹内有a.txt文件 …

2024年6月8日_第十五周_周六_分享技术:麻将技术

四人下午打麻将大纲 一、背景设定 时间:一个悠闲的下午地点:某人家中的麻将室或客厅人物: A先生:一个经验丰富的麻将老手,喜欢沉稳地分析牌局B女士:麻将新手,但好学不倦,喜欢尝试新…

微服务开发与实战Day03

一、导入黑马商城项目 资料文档:Docs 1. 安装MySQL ①删除root目录下的mysql rm -rf mysql/ ②把课前资料里的mysql目录上传到root目录下 ③创建一个通用网络 docker network create hm-net ④使用下面的命令安装MySQL docker run -d \--name mysql \-p 330…

自然资源-国土空间规划术语集合

自然资源-国土空间规划术语集合 国土空间: 国家主权与主权权利管辖下的地域空间,是人类生产生活的载体和场所,包括陆地国土空间和海洋国土空间。 国土空间规划: 对一定区域国土空间开发保护在空间和时间上作出的安排&#xff…

C++ OpenCV 图像分类魔法:探索神奇的模型与代码

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

TensorFlow2.x基础与mnist手写数字识别示例

文章目录 Github官网文档Playground安装声明张量常量变量 张量计算张量数据类型转换张量数据维度转换ReLU 函数Softmax 函数卷积神经网络训练模型测试模型数据集保存目录显示每层网络的结果 TensorFlow 是一个开源的深度学习框架,由 Google Brain 团队开发和维护。它…

IP纯净度是什么,对用户有多么重要?

在网络应用和数据采集等领域,代理IP被广泛使用,而代理IP的纯净度则直接影响其性能和可用性。代理IP的纯净度主要涉及到代理IP在网络传输过程中的稳定性、匿名性和安全性。今天就带大家一起了解代理IP纯净度对用户的重要性。 第一,保护用户的隐…

adb多设备多屏幕调试

开发中有一种场景,就是将不同的应用界面投到不同的设备上,那么我们可以用以下方法 adb 多屏幕调试 准备工作 1、获取设备ID,SN码2、查看目前有几块屏幕,获取display-id 通过以下命令查看device-id(SN) a…

springboot+vue前后端项目接口校验通信数据完整性

方案&#xff1a;使用国密SM3算法实现数字签名 服务端 maven的pom文件引用 <!-- 国密算法支持 --><dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15to18</artifactId><version>1.69</version><…

Android Ble低功耗蓝牙开发

一、新建项目 在Android Studio中新建一个项目&#xff0c;如下图所示&#xff1a; 选择No Activity&#xff0c;然后点击Next 点击Finish&#xff0c;完成项目创建。 1、配置build.gradle 在android{}闭包中添加viewBinding&#xff0c;用于获取控件 buildFeatures {viewB…

关于Redis中事务

事务的四个特性 Redis到底有没有原子性 Redis中的原子性不同于MySQL&#xff0c;相比于MySQL&#xff0c;Redis中的原子性几乎不值一提。 MySQL中的原子性&#xff0c;不仅仅是“要么全都执行&#xff0c;要么全都不执行”&#xff0c;它还保证了“一旦执行&#xff0c;结果…

Docker面试整理-如何管理Docker容器的安全?

管理 Docker 容器的安全是确保整个应用和基础设施安全的关键部分。以下是一些重要的实践和策略,可帮助你提高 Docker 容器的安全性: 1. 使用官方和受信任的镜像: ● 仅从可信赖的源下载镜像,如 Docker Hub 上的官方镜像或已验证的发布者。 ● 定期检查和更新你的镜像以确保…

Flutter基础 -- Flutter容器布局

目录 1. MaterialApp 1.1 组件定义 1.2 主要功能和属性 1.3 示例 2. 脚手架 Scaffold 2.1 定义 2.2 Scaffold 的属性 2.3 示例 PS: 对于 Scaffold 和 MaterialApp 3. 线性布局 Column Row 3.1 Row 3.2 Column 4. 盒模型 Box Model 4.1 定义 4.2 示例 5. 容器 C…

dbus-cleanup-sockets`:Linux 中的 D-Bus 套接字清理工具

dbus-cleanup-sockets&#xff1a;Linux 中的 D-Bus 套接字清理工具 在 Linux 系统中&#xff0c;D-Bus 是一种消息总线系统&#xff0c;用于应用程序之间的通信。然而&#xff0c;在某些情况下&#xff0c;D-Bus 套接字文件可能会因为各种原因而残留&#xff0c;导致系统资源…

PHP-CGI Windows平台远程代码执行漏洞复现(CVE-2024-4577)

0x01 产品简介 PHP-CGI 是一种用于在 Web 服务器上运行 PHP 脚本的接口,通过 CGI(公共网关接口)将 PHP 解释器与 Web 服务器连接。 0x02 漏洞概述 2024年6月,PHP官方发布新版本,修复了 PHP-CGI 中一个远程代码执行漏洞。鉴于该漏洞无前置条件,易于利用,且默认情况下可…

使用JDBC连接MySQL完整步骤(实测可用)

目录 步骤一&#xff1a;准备MySQL JDBC驱动程序 步骤二&#xff1a;导入必要的类 步骤三&#xff1a;建立数据库连接 步骤四&#xff1a;关闭连接 完整示例 附加 要使用Java连接MySQL数据库&#xff0c;您可以使用Java Database Connectivity&#xff08;JDBC&#xff0…

【JavaScript脚本宇宙】构建Web美学:CSS预处理器和UI库

构建优秀用户界面的必备利器&#xff1a;六款前端框架解析与比较 前言 前端开发中&#xff0c;选择合适的框架对于提高工作效率和实现设计目标至关重要。本文将介绍一些流行的前端框架&#xff0c;它们各具特色&#xff0c;能够帮助开发人员快速构建优秀的用户界面。 欢迎订阅…

21.注入的概念

上一个内容&#xff1a;20.创建辅助模板 在 19.使用纯c代码实现调用hp减伤害 它里面的代码需要我们自己手动调用WriteProcessMemory函数把辅助代码放到游戏进程内存中然后还需要计算大小计算辅助函数的内存地址&#xff0c;这是很麻烦的一件事&#xff0c;Windows系统提供了一…