Kafka高频面试题详解

1、kafka是如何做到高效读写

1)Kafka 本身是分布式集群,可以采用分区技术,并行度高

2)读数据采用稀疏索引,可以快速定位要消费的数据。(mysql中索引多了之后,写入速度就慢了)

3)顺序写磁盘

Kafka 的 producer 生产数据,要写入到 log 文件中,写的过程是一直追加到文件末端, 为顺序写。官网有数据表明,同样的磁盘,顺序写能到 600M/s,而随机写只有 100K/s。这与磁盘的机械机构有关,顺序写之所以快,是因为其省去了大量磁头寻址的时间。

4)页缓存(PageCache) + 零拷贝技术

参考上图,kafka重度依赖底层的PageCache,当有写操作发生时,会先写到页缓存中,页缓存中的数据存储在内存上,当有读操作发生时,会先从页缓存中读取数据,如果找不到的话会再从磁盘(图中的File)中读取

在流程图中,黑色箭头代表写入流程,橙色箭头代表读取流程

写入

生产者将数据发送给kafka,kafka将数据交给linux内核,linux内核将数据放入自身操作系统的页缓存中,到一定值后写入磁盘

读取

消费者消费时,如果是非零拷贝,直接从页缓存中通过网卡发给消费者,没有去kafka的业务数据中获取数据,所以速度比较快

2、Kafka集群中数据的存储是按照什么方式存储的?

topic数据的存储机制

topic是一种逻辑概念,partition是一种物理概念,每个partition对应一个log文件,存储的是producer生产的数据, producer产生的数据会不断追加到文件末端,为了防止文件过大,kafka采用了分片和索引机制,将每个partition分成了多个segment,segment下有日志文件、索引文件、和时间戳索引文件等,这些文件采用了稀疏索引(运行速度快) 

3、kafka中是如何快速定位到一个offset的

首先根据目标找到对应的segment文件,找到小于等于目标offset的最大offset对应的索引项,定位到log文件,向下遍历找到目标record

4、简述kafka中的数据清理策略

Kafka 中默认的日志(这个地方是数据的意思,就是Segment)保存时间为 7 天,可以通过调整如下参数修改保存时间

log.retention.hours,最低优先级小时,默认 7 天。

log.retention.minutes,分钟。 --如果设置了该值,小时的设置不起作用。

log.retention.ms,最高优先级毫秒。 --如果设置了该值,分钟的设置不起作用。

log.retention.check.interval.ms,负责设置检查周期,默认 5 分钟。

那么日志一旦超过了设置的时间,怎么处理呢?

Kafka 中提供的日志清理策略有 delete 和 compact 两种。

1)delete 日志删除:将过期数据删除

log.cleanup.policy = delete 所有数据启用删除策略

(1)基于时间:默认打开。以 segment 中所有记录中的最大时间戳作为该文件时间戳。

(2)基于大小:默认关闭。超过设置的所有日志总大小,删除最早的 segment。

log.retention.bytes,默认等于-1,表示无穷大。

思考:如果一个 segment 中有一部分数据过期,一部分没有过期,怎么处理?

2)compact 日志压缩(合并的意思,不是真的压缩)

compact日志压缩:对于相同key的不同value值,只保留最后一个版本。

log.cleanup.policy = compact 所有数据启用压缩策略

压缩后的offset可能是不连续的,比如上图中没有6,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,实际上会拿到offset为7的消息,并从这个位置开始消费。

这种策略只适合特殊场景,比如消息的key是用户ID,value是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。

比如:张三 去年18岁,今年19岁,这种场景下可以进行压缩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ML 系列: 第 23 节 — 离散概率分布 (多项式分布)

目录 一、说明 二、多项式分布公式 2.1 多项式分布的解释 2.2 示例 2.3 特殊情况:二项分布 2.4 期望值 (Mean) 2.5 方差 三、总结 3.1 python示例 一、说明 伯努利分布对这样一种情况进行建模:随机变量可以采用两个可能的值&#…

MFC工控项目实例三十实现一个简单的流程

启动按钮夹紧 密闭,时间0到平衡 进气,时间1到进气关,时间2到平衡关 检测,时间3到平衡 排气,时间4到夹紧开、密闭开、排气关。 相关代码 void CSEAL_PRESSUREDlg::OnTimer_2(UINT nIDEvent_2) {// if (nIDEvent_21 &am…

当使用key-value方式进行参数传递时,若key对应的是一个对象或数组结构,如何利用API Post工具进行模拟操作。

1. 后端服务代码如下 RequestMapping("/handle11")public Person handle11(Person person){System.out.println(person);return person;} 2. 后端入参结构 person是一个对象,对象结构如下: public class Person {private String username …

MySQL技巧之跨服务器数据查询:基础篇-A数据库与B数据库查询合并

MySQL技巧之跨服务器数据查询:基础篇-A数据库与B数据库查询合并 上一篇已经描述:借用微软的SQL Server ODBC 即可实现MySQL跨服务器间的数据查询。 而且还介绍了如何获得一个在MS SQL Server 可以连接指定实例的MySQL数据库的链接名: MY_ODBC_MYSQL 以…

人工智能赋能快递物流,基于YOLOv3全系列【tiny/l/spp】参数模型开发构建物流分拣场景下快递包裹智能检测计数系统

随着电商互联网的迅猛发展,消费者的购物习惯发生了翻天覆地的变化,网购已成为日常生活不可或缺的一部分。这一趋势直接推动了快递物流行业的快速扩张,每天都有数以亿计的包裹在全球范围内流转。然而,传统的快递点物流包裹分拣工作…

Nginx中实现流量控制(限制给定时间内HTTP请求的数量)示例

场景 流量控制 流量限制 (rate-limiting),可以用来限制用户在给定时间内HTTP请求的数量。 流量限制可以用作安全目的,比如可以减慢暴力密码破解的速率, 更常见的情况是该功能被用来保护上游应用服务器不被同时太多用户请求所压垮。 流量…

【ARM Coresight OpenOCD 系列 5 -- arp_examine 使用介绍】

文章目录 OpenOCD arp_examine 使用 OpenOCD arp_examine 使用 因为我们很多时候运行 Openocd 的时候有些 core 还没有启动, 所以最好在配置脚本中添加 -defer-examine这个参数, 如下: #cortex-m33 target create ${_CHIPNAME}.m33 cortex_m -dap ${_CHIPNAME}.da…

数据分析考试怎么考

数据分析在现代商业和学术领域变得越来越重要,为决策提供了坚实的基础。对于那些希望在这一领域发展职业生涯的人来说,通过专业认证来展示自己在数据分析方面的能力无疑是一个明智之举。在众多数据分析认证中,CDA(Certified Data …

php 如何将数组转成对象数组

1. 使用 (object) 操作符: “php $array [‘name’ > ‘John’, ‘age’ > 25]; $object (object) $array; // 访问对象属性 echo $object->name; // 输出: John echo $object->age; // 输出: 25 “ 2. 使用 (stdClass): “php $array …

【AI新领域应用】AlphaFold 2,原子级别精度的蛋白质3D结构预测,李沐论文精读(2021Nature封面,2024诺贝尔奖)

文章目录 AlphaFold 2 —— 原子级别精度的蛋白质3D结构预测背景(2024诺奖与AI学习资料)1、摘要、导论、写作技巧2、方案:模型,编码器,解码器3、实验:数据集,训练,结果 AlphaFold 2 …

微服务day06

MQ入门 同步处理业务: 异步处理: 将任务处理后交给MQ来进行分发处理。 MQ的相关知识 同步调用 同步调用的小结 异步调用 MQ技术选型 RabbitMQ 安装部署 其中包含几个概念: publisher:生产者,也就是发送消息的一方 …

kafka消费者的消费分区策略有哪些,默认是哪个?

Kafka消费者的分区分配策略主要有以下几种,分别决定了如何将多个分区分配给消费者: 1. Range(范围分配) 描述:将分区连续地分配给消费者。每个消费者负责一段连续的分区。如果有多个消费者,那么消费者会按…

[ Linux 命令基础 2 ] Linux 命令详解-系统管理命令

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

mysql5常用命令(一)

1、登录mysql (1) mysql -u[用户] -p[密码] -h[登录到哪台数据库] 注意:-p后面不要加空格 [rootOldboy ~]# mysql -uroot -p123456 -h localhost(2) mysql [数据库名] -u[用户] -p[密码] -h[登录到哪台数据库] [rootOldboy ~]# mysql test -uroot -p123456 -…

技术前沿:从强化学习到Prompt Engineering,业务流程管理的创新之路

在数字化转型的大潮中,企业越来越重视业务流程管理(BPM)的优化。然而,传统的BPM方法面临许多挑战,如优化速度慢、数据需求高、灵活性不足等。国际会议BPMDS 2023和EMMSAD 2023展示了一系列技术和研究亮点,为…

方法论简介

方法论概述 方法论研究和探讨如何进行有效研究、思考和解决问题的一套理论体系和方法框架。 它不仅包括具体的操作步骤、技巧、工具等, 也包括背后的哲学理念、思维方式以及系统化的过程。 方法论帮助人们在面对复杂问题时,通过理性推理和系统化的步…

Linux:vim命令总结及环境配置

文章目录 前言一、vim的基本概念二、vim模式命令解析1. 命令模式1)命令模式到其他模式的转换:2)光标定位:3)其他命令: 2. 插入模式3. 底行模式4. 替换模式5. 视图模式6. 外部命令 三、vim环境的配置1. 环境…

【在Linux世界中追寻伟大的One Piece】多路转接epoll

目录 1 -> I/O多路转接之poll 1.1 -> poll函数接口 1.2 -> poll的优点 1.3 -> poll的缺点 1.4 -> poll示例 1.4.1 -> 使用poll监控标准输入 2 -> I/O多路转接之epoll 2.1 -> 初识epoll 2.2 -> epoll的相关系统调用 2.2.1 -> epoll_cre…

JS爬虫实战之TikTok_Shop验证码

TikTok_Shop验证码逆向 逆向前准备思路1- 确认接口2- 参数确认3- 获取轨迹参数4- 构建请求5- 结果展示 结语 逆向前准备 首先我们得有TK Shop账号,否则是无法抓取到数据的。拥有账号后,我们直接进入登录。 TikTok Shop 登录页面 思路 逆向步骤一般分为…

湘潭大学软件工程算法设计与分析实验-模拟退火算法

文章目录 写在前面代码分析 写在前面 总共是要四份代码,好像都是实现背包问题,前面三个都比较简单直观,朋友上周在机房给我讲解了一下之后,我大概弄清楚了,这周好像是最后一次算法课了,所以明天我得把剩下…