[Kafka 常见面试题]如何保证消息的不重复不丢失


文章目录

  • Kafka
    • 1. Kafka如何保证不丢失消息?
      • 生产者数据的不丢失
      • 消费者数据的不丢失
      • Kafka集群中的broker的数据不丢失
    • 2. Kafka中的消息是否会丢失和重复消费?
      • 1. 消息发送
      • 2. 消息消费
    • 3. Kafka 的设计是什么样的呢?
    • 4. 数据传输的事务定义有哪三种
    • 5. Kafka 怎么判断一个节点存活
    • 6. 生产者是否直接将数据发送到 broker 的 leader (主节点)
    • 7. Kafka 消费者是否可以消费指定分区消息?
    • 8. Kafka 消息是采用 Pull 模式,还是 Push 模式?
    • 9. Kafka 存储在硬盘上的消息格式是什么? (存疑)
    • 10. 介绍一下kafka 的 ack 机制
    • 11. Kafka 的消费者如何消费数据

Kafka

1. Kafka如何保证不丢失消息?

生产者数据的不丢失

  • 如果是同步模式:

ack机制能够保证数据的不丢失,如果ack设置为0,风险很大,一般不建议设置为0。即使设置为1,也会随着leader宕机丢失数据。

producer.type=sync 
request.required.acks=1
  • 如果是异步模式:

也会考虑ack的状态,除此之外,异步模式下的有个buffer,通过buffer来进行控制数据的发送,有两个值来进行控制,时间阈值与消息的数量阈值,如果buffer满了数据还没有发送出去,有个选项是配置是否立即清空buffer。可以设置为-1,永久阻塞,也就数据不再生产。异步模式下,即使设置为-1。也可能因为程序员的不科学操作,操作数据丢失,比如kill -9,但这是特别的例外情况。

producer.type=async
request.required.acks=1
queue.buffering.max.ms=5000
queue.buffering.max.messages=10000 
queue.enqueue.timeout.ms = -1 
batch.num.messages=200

结论:producer有丢数据的可能,但是可以通过配置保证消息的不丢失。

消费者数据的不丢失

通过 offset commit 来保证数据的不丢失,Kafka自己记录了每次消费的offset数值,下次继续消费的时候,会接着上次的offset进行消费。

而offset的信息在Kafka0.8版本之前保存在Zookeeper中,在0.8版本之后保存到topic中,即使消费者在运行过程中挂掉了,再次启动的时候会找到offset的值,找到之前消费消息的位置,接着消费,由于 offset的信息写入的时候并不是每条消息消费完成后都写入的,所以这种情况有可能会造成重复消费,但是不会丢失消息。
唯一例外的情况是,我们在程序中给原本做不同功能的两个consumer组设置

Kafka SpoutConfig.bulider.setGroupid的时候设置成了一样的 groupid,这种情况会导致这两个组共享同一份数据,就会产生组A消费 partition1,partition2 中的消息,组B消费 partition3 的消息,这样每个组消费的消息都会丢失,都是不完整的。 为了保证每个组都独享一份消息数据,groupid一定不要重复才行。

Kafka集群中的broker的数据不丢失

每个broker中的partition我们一般都会设置有replication(副本)的个数,生产者写入的时候首先根据分发策略(有partition按partition,有key按key,都没有轮询)写入到leader中,follower(副本)再跟leader同步数据,这样有了备份,也可以保证消息数据的不丢失。

2. Kafka中的消息是否会丢失和重复消费?

要确定Kafka的消息是否丢失或重复,从两个方面分析入手:消息发送和消息消费。

1. 消息发送

Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过 producer.type属性进行配置。
Kafka通过配置 request.required.acks属性来确认消息的生产:

0---表示不进行消息接收是否成功的确认;
1---表示当Leader接收成功时确认;
-1---表示Leader和Follower都接收成功时确认;

综上所述,有6种消息生产的情况,下面分情况来分析消息丢失的场景:
(1) acks=0,不和 Kafka 集群进行消息接收确认,则当网络异常、缓冲区满了等情况时,消息可能丢失;
(2) acks=1、同步模式下,只有Leader确认接收成功后但挂掉了,副本没有同步,数据可能丢失;

2. 消息消费

Kafka 消息消费有两个 consumer 接口,Low-level API 和 High-level API:
Low-level API:消费者自己维护 offset 等值,可以实现对 Kafka 的完全控制;
High-level API:封装了对 parition 和 offset 的管理,使用简单;
如果使用高级接口High-level API,可能存在一个问题就是当消息消费者从集群中把消息取出来、并提交了新的消息offset值后,还没来得及消费就挂掉了,那么下次再消费时之前没消费成功的消息就“ 诡异”的消失了;
解决办法:
针对消息丢失:
同步模式下,确认机制设置为-1,即让消息写入Leader和Follower之后再确认消息发送成功;
异步模式下,为防止缓冲区满,可以在配置文件设置不限制阻塞超时时间,当缓冲区满时让生产者一直处于阻塞状态;
针对消息重复:将消息的唯一标识保存到外部介质中,每次消费时判断是否处理过即可。
消息重复消费及解决参考: 如何保证消息不被重复消费?(如何保证消息消费时的幂等性)-Java知音

消息的重复消费问题,需要考虑幂等性,如果消费类型天生幂等,那么就没有必要去考虑重复消费的问题。
但是一般上 MQ 的任务都是一些比较耗时的任务,比如说调用第三方服务,此时可以采用第三方记录(redis),保存消息的唯一 id,定义消息的唯一id 以及时间戳的消费类型(待处理,过程中,失败/完成),如果是消费过程丢失,会导致消息长时间处于待处理的状态,我们可以另起一个定时任务,轮询一定时间间隔的任务,将它生产到兜底服务,由兜底服务去判断是否需要再次消费(比如说,一个 sms 服务,可以去查询当前消息 id 的短信是否已经成功发出,如果成功发出,则标记当前任务成功消费。)

3. Kafka 的设计是什么样的呢?

Kafka 将消息以主题为单位进行归纳。

  • 将向 Kafka 主题发布消息的程序称为生产者。
  • 将预订主题并消费消息的程序成为消费者。
  • Kafka 以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个 broker(中间人)。
  • 生产者通过网络将消息发送到 Kafka 集群,集群向消费者提供消息

4. 数据传输的事务定义有哪三种

  • 最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输;
  • 最少一次: 消息不会被漏发送,最少被传输一次,但也有可能被重复传输;
  • 精确的一次(Exactly once): 不会漏传输也不会重复传输,每个消息都传输被一次而且仅仅被传输一次,这是大家所期望的。

5. Kafka 怎么判断一个节点存活

主要有两个条件

  1. 必须可以维护和 ZooKeeper 的连接,ZooKeeper 通过心跳机制检查每个节点的连接;
  2. 如果节点是个 follower,他必须能及时的同步 leader 的写操作,延时不能太久。

6. 生产者是否直接将数据发送到 broker 的 leader (主节点)

生产者直接将数据发送到 broker 的 leader(主节点),不需要在多个节点进行分发,为了 帮助 producer 做到这点,所有的 Kafka 节点都可以及时的告知,哪些节点是活动的,目标 topic 目标分区的 leader 在哪。这样 producer 就可以直接将消息发送到目的地了。

7. Kafka 消费者是否可以消费指定分区消息?

Kafka 消费消息时,向 broker 发出 “fetch” 请求去消费特定分区的消息,同时,consumer 还指定消息在日志中的偏移量(offset),这样就可以消费从这个位置开始的消息。
消费者拥有 了 offset 的控制权,可以向后回滚去重新消费之前的消息,这是很有意义的。

8. Kafka 消息是采用 Pull 模式,还是 Push 模式?

Kafka 遵循了一种大部分消息系统共同的传统 的设计:producer 将消息推送到 broker,consumer 从 broker 拉取消息 。

9. Kafka 存储在硬盘上的消息格式是什么? (存疑)

消息由一个固定长度的头部和可变长度的字节数组组成。头部包含了一个版本号和 CRC32 校验码。

  • 版本号: 1 byte
  • CRC 校验码: 4 bytes
  • 具体的消息: n bytes

10. 介绍一下kafka 的 ack 机制

在Kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常被收到。
可以通过设置request.required.acks 决定 ack 策略。

  • 0: 生产者不会等待 broker 的 ack,这个延迟最低但是存储的保证最弱。当 server 挂掉的时候就会丢数据;
  • 1:服务端会等待 ack 值。leader 副本确认接收到消息后发送 ack 。如果 leader 挂掉后,不确保是否复制完成,也就是说新 leader 可能会丢失数据;
  • -1:同样在 1 的基础上,服务端会等所有的 follower 的副本收到数据后, leader 才会发出 的 ack,这样数据就不会丢失。

11. Kafka 的消费者如何消费数据

消费者每次消费数据的时候,都会记录消费的物理偏移量(offset), 等到下次消费时,他会接着上次位置继续消费 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/228832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Java][方法引用]构造方法的引用事例分析

/*以上就是我们采用map方法new Function(有两个形参 一个传入一个传出)apply方法接受参数并且返回一个Student类型 最后封装成List集合再用Iterator迭代器进行遍历的一个操作流程 但是我们不禁思考这样做真的便捷吗 我们尝试把map内的代码放到JavaBean Student中去 再考虑问题*…

接口测试--参数实现MD5加密签名规则

最近有个测试接口需求,接口有签名检查,签名规范为将所有请求参数按照key字典排序并连接起来进行md5加密,格式是:md5(bar2&baz3&foo1),得到签名,将签名追加到参数末尾。由于需要对参数进行动态加密并且做压力测…

2023年度佳作:AIGC、AGI、GhatGPT、人工智能大语言模型的崛起与挑战

目录 前言 01 《ChatGPT 驱动软件开发》 内容简介 02 《ChatGPT原理与实战》 内容简介 03 《神经网络与深度学习》 04 《AIGC重塑教育》 内容简介 05 《通用人工智能》 目  录 前言 2023年是人工智能大语言模型大爆发的一年,一些概念和英文缩写也在这一…

vue3组件注册

注册 一个 Vue 组件在使用前需要先被“注册”,这样 Vue 才能在渲染模板时找到其对应的实现。组件注册有两种方式:全局注册和局部注册。 1. 全局注册组件: 在 Vue 3 中,可以使用createApp方法创建一个应用实例,并使用…

基于ssm物流管理系统论文

摘 要 本物流管理系统设计目标是实现物流的信息化管理,提高管理效率,使得物流管理作规范化、科学化、高效化。 本文重点阐述了物流管理系统的开发过程,以实际运用为开发背景,基于SSM框架,运用了Java编程语言和MYSQL数…

事件对象如何使用

在 JavaScript 中,事件对象主要用于事件处理函数,以获取有关事件的详细信息或控制事件的行为。以下是一些常见的使用场景: 获取事件的详细信息 事件对象包含了与事件相关的各种信息,你可以在事件处理函数中访问这些信息。例如&a…

Azure Machine Learning - 提示工程简介

OpenAI的GPT-3、GPT-3.5和GPT-4模型基于用户输入的文本提示工作。有效的提示构造是使用这些模型的关键技能,涉及到配置模型权重以执行特定任务。这不仅是技术操作,更像是一种艺术,需要经验和直觉。本文旨在介绍适用于所有GPT模型的提示概念和…

Ubuntu 常用命令之 chmod 命令用法介绍

chmod是Linux系统下的一个命令,用于改变文件或目录的权限。它的名称是“change mode”的缩写。在Linux中,文件或目录的权限分为读(r)、写(w)和执行(x)三种,分别对应数字4…

【Azure 架构师学习笔记】- Azure Databricks (3) - 再次认识DataBricks

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (2) -集群 前言 在对Databricks有了初步了解之后,如果要深入使用则需要对其进行更深层次的了解。 Databricks ADB 是一个统一的…

Debezium发布历史08

原文地址: https://debezium.io/blog/2016/08/16/Debezium-0-2-4-Released/ Debezium 0.2.4 发布 八月 16, 2016 作者: Randall Hauch 发布 mysql docker 欢迎关注留言,我是收集整理小能手,工具翻译,仅供参考&#x…

os功能模板

【 一 】简介 os 就是 “operating system” 的缩写,顾名思义,os 模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块,一方面可以方便地与操作系统进行交互,另一方面页可以极大增强代码的可移植性。如果该…

全国职业院校技能大赛“大数据应用开发”赛项说明

1、赛项介绍 (1)赛项名称 全 国 职 业 院 校 技 能 大 赛 “大数据应用开发” 赛 项 职业院校技能大赛官网 (vcsc.org.cn)https://www.vcsc.org.cn/ 大赛组织机构介绍 全国职业院校技能大赛(以下简称大…

【数据结构】八大排序之希尔排序算法

🦄个人主页:修修修也 🎏所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 一.优化直接插入排序算法 我们在之前对直接插入排序算法的优化部分通过对直接插入排序的分析可以得到一个结论,即: 进行直接插入排序的数组,如果越接近局部有序,则后续进行直…

电脑技巧:笔记本电脑保养技巧诀,让你的电脑多用几年

新到手的宝贝笔记本电脑爱不释手,要想它长久的陪伴,平时的维护与保养自然不能少,今天小编给大家分享一下,如何保养和维护笔记本的各个部件。 一、电 池 电池是笔记本实现移动办公的重要部件,电池状况直接影响了电池的…

最完整的Web视频加密播放技术实现(含技术调研和Demo源码)

大厂技术 高级前端 Node进阶 点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 作者:然燃 (感谢小伙伴投稿分享)原文链接: https://juejin.cn/post/7307934456995856419 最近又遇到了web视频化的场景&a…

Axure动态面板的使用

一. 动态面板 Axure动态面板是Axure RP软件中的一个功能模块,用于创建交互式原型和模拟应用程序的动态效果。它可以模拟用户在应用程序中的操作流程,并展示不同状态之间的变化,提供更真实的用户体验。通过创建不同的状态和添加交互效果&…

21--集合小案例

案例--图书管理系统 1.创建实体类Book package com.work.pojo; /** *Author: 憨憨浩浩 *CreateTime: 2023-12-16 17:27 *Description: Book实体类 */ public class Book {private int id; // 编号private String name; // 图书名称private String author;…

C++软件调试与异常排查技术从入门到精通学习路线分享

目录 1、概述 2、全面了解引发C软件异常的常见原因 3、熟练掌握排查C软件异常的常见手段与方法 3.1、IDE调试 3.2、添加打印日志 3.3、分块注释代码 3.4、数据断点 3.5、历史版本比对法 3.6、Windbg静态分析与动态调试 3.7、使用IDA查看汇编代码 3.8、使用常用工具分…

docker容器部署mysql并远程访问

记录一篇docker部署mysql的配置笔记,省的每次都去网上查了。 拉取mysql镜像 sudo docker pull mysql 启动mysql容器 sudo docker run --name mysql -e MYSQL_ROOT_PASSWORD2222 -p 33060:3306 -d mysql 配置远程访问 1 进入容器 sudo docker exec -it mysql /bin/…

Mybatis批量插入、更新操作

在实际生产开发中,我们都知道,DB是影响响应速度的主要原因之一,因此都会选择尽可能减少操作DB的次数,所以在批量操作数据库时,都会选择一些方式去尽可能优化。 一、实体类和mapper 实体类为: @Data public class User {private Long userId;private String name;priva…