Kafka的高水位、低水位是什么概念?

Kafka 的 高水位(High Watermark, HW)低水位(Low Watermark, LW) 是和数据存储、消费进度、日志清理等密切相关的重要概念。我们用一个 “蓄水池” 的比喻来形象地解释它们的作用。


1. Kafka 里的数据像一个蓄水池

Kafka 的数据存储在 日志(log segment) 里,每个分区(partition)就像一个不断增长的日志文件,数据会随着生产者(producer)的发送不断增加,消费者(consumer)从中读取数据。你可以把它想象成一个 不断注水的蓄水池


2. 高水位(HW):消费安全线

高水位(HW) 就像是蓄水池里的 “最低可见水位”,只有水面之下的水(数据)才是消费者能喝(消费)到的

  • Kafka 是分布式的,每个分区的消息可能被多个副本(replica)存储在不同的机器上。
  • 只有当 所有 ISR(In-Sync Replicas,即同步副本)都确认收到了某个消息,这个消息才被认为是“稳定的”并可以被消费者消费。
  • 高水位(HW)指的就是最早的 ISR 共同确认的那条消息的偏移量(offset),消费者只能消费到这个位置的数据,再往后的数据还不能保证稳定,不能消费。

类比:

  • 你可以想象蓄水池里有一根透明的管子,管子以下的水可以喝(已经被多个副本确认)。
  • 但管子上面的水(新写入但未完全确认的消息)还在“沉淀”过程中,可能会被回滚(删除)。

作用:

  • 保证数据一致性,确保所有消费者只能消费已经被多个副本确认的数据,避免数据丢失。

3. 低水位(LW):清理水池底部的陈旧数据

低水位(LW) 就是 “蓄水池的排水口”,用来删除过旧的数据,防止池子被塞满

Kafka 会根据 日志清理策略(Log Retention Policy) 来删除旧数据,比如:

  • 按时间删除(log.retention.hours):只保留最近 X 小时的数据。
  • 按大小删除(log.retention.bytes):当日志文件超过一定大小后,删除最早的数据。

低水位(LW)指的就是最早还能被 Kafka 保留的偏移量(offset),更早的数据都会被清理掉,防止日志无限增长。

类比:

  • 如果池子太满,底部的水就要排走,以腾出空间给新的水(数据)。
  • 低水位(LW)以下的数据(offset)会被 Kafka 自动清理,消费者也无法再读取这些数据。

作用:

  • 避免日志文件无限增长,节省存储空间
  • 提高 Kafka 性能,防止查询过大数据时变慢。

4. 高水位和低水位的关系

  • 高水位(HW)不断上升,确保数据可以安全消费
  • 低水位(LW)也在上升,确保老数据及时清理
  • 高水位 - 低水位之间的数据就是 Kafka 当前可消费的数据,消费者只能消费这个范围的数据。

5. 总结

概念作用类比
高水位(HW)保障消费者只能消费到安全的数据透明管子以下的水,可安全饮用
低水位(LW)触发日志清理,避免存储爆炸水池排水口,定期排掉老水

6. 延伸思考

  • 如果 ISR 副本少了(比如机器故障),高水位就不会提升,导致消费者无法消费新数据。
  • 如果低水位设得太低,可能会让消费者还没消费就被删数据,导致数据丢失。
  • Kafka 通过合理调整 log.retention.* 和副本同步策略,来平衡存储和消费的可靠性。

这样理解的话,Kafka 高低水位的原理是不是就清晰很多了?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于JAVA+Spring+mysql_快递管理系统源码+设计文档

文末获取源码数据库文档 感兴趣的可以先收藏,有毕设问题,项目以及论文撰写等问题都可以和博主沟通,尽最大努力帮助更多的人! 摘 要 随着物流行业信息化的深入使得物流过程中货物的状态和变化透明化,现代信息化的接入使…

Python----数据分析(Numpy:安装,数组创建,切片和索引,数组的属性,数据类型,数组形状,数组的运算,基本函数)

一、 Numpy库简介 1.1、概念 NumPy(Numerical Python)是一个开源的Python科学计算库,旨在为Python提供 高性能的多维数组对象和一系列工具。NumPy数组是Python数据分析的基础,许多 其他的数据处理库(如Pandas、SciPy)都依赖于Num…

【SQL】MySQL中的字符串处理函数:concat 函数拼接字符串,COALESCE函数处理NULL字符串

MySQL中的字符串处理函数:concat 函数 一、concat ()函数 1.1、基本语法1.2、示例1.3、特殊用途 二、COALESCE()函数 2.1、基本语法2.2、示例2.3、用途 三、进阶练习 3.1 条件和 SQL 语句3.2、解释 一、concat &…

windows下适用msvc编译ffmpeg 适用于ffmpeg-7.1

需要的工具: visual studio 2019 (可以是其他版本,只是本人电脑上装的为2019) msys2 ffmpeg-7.1源码 1. 修改msys2_shell.cmd 在msys2目录修改msys2_shell.cmd 打开后找到行set MSYS2_PATH_TYPEinherit 删除开头的rem 2. 运行msys2 运行x64 Native Tools Command …

2025年软考报名费用是多少?全国费用汇总!

软考报名时间终于确定了!想要参加2025年软考的同学们注意啦!特别是那些一年只有一次考试机会的科目,千万不要错过哦!这里为大家整理了各地的报名时间、科目、费用等信息,快来看看吧! 一、2025年软考时间安…

【LeetCode459】重复的子字符串

题目描述 给定一个非空的字符串 s ,检查是否可以通过由它的一个子串重复多次构成。 思路与算法 关键词:利用字符串的重复性质;字符串的拼接技巧;逆推法假设原始字符串 s 是由某个子串 sub 重复多次构成的。也就是说&#xff0c…

JAVA面试常见题_基础部分_Dubbo面试题(上)

Dubbo 支持哪些协议,每种协议的应用场景,优缺点? • dubbo: 单一长连接和 NIO 异步通讯,适合大并发小数据量的服务调用,以及消费者远大于提供者。传输协议 TCP,异步,Hessian 序列化…

掌握Git:从入门到精通的完整指南

Git是什么? Git是一个分布式版本控制系统,最初由Linus Torvalds在2005年为管理Linux内核开发而创建 它的主要功能是跟踪文件的更改,协调多个开发者之间的工作,并帮助团队高效地管理项目代码。Git不仅适用于大型开源项目&#xf…

数据安全_笔记系列05:数据合规与隐私保护(GDPR、CCPA、中国《数据安全法》)深度解析

数据安全_笔记系列05:数据合规与隐私保护(GDPR、CCPA、中国《数据安全法》)深度解析 在全球数据跨境流动和隐私保护强监管的背景下,企业需同时满足多法域合规要求。以下从 法规要点、核心差异、实施策略、跨境传输、典型案例 等维…

StableDiffusion打包 项目迁移 项目分发 1

文章目录 SD项目迁移前置知识webui-user.batwebui.batlaunch_utils.py 下一篇开始实践 SD项目迁移 显卡驱动更新:https://www.nvidia.cn/geforce/drivers/ 下载安装三个程序: python3.10.6: https://www.python.org/downloads/release/python-3106/gi…

Leetcode2414:最长的字母序连续子字符串的长度

题目描述: 字母序连续字符串 是由字母表中连续字母组成的字符串。换句话说,字符串 "abcdefghijklmnopqrstuvwxyz" 的任意子字符串都是 字母序连续字符串 。 例如,"abc" 是一个字母序连续字符串,而 "ac…

FFmpeg+vvenc实现H.266的视频编解码教程

Linux系统:FFmpegvvenc实现H.266的视频编解码教程(视频压缩) 关键网址 ffmpeg目前支持libvvenc,因此配置好libvvenc只会在一些make、sudo make install命令时遇到问题,例如默认安装或配置路径指定错误、ffmpeg版本、v…

vscode使用豆包MARSCode----集成doubao1.5 DeepSeekR1 DeepseekV3模型的ai编程插件

引入扩展 打开VSCode扩展窗口,在搜索窗口搜索MarsCode,找到MarsCode 插件单击「install」,完成安装,登录即可使用MarsCode 编程助手。 主要功能 主要快捷键 / explain 解释项目代码,AI 返回的内容有结构分类&#…

uni小程序wx.switchTab有时候跳转错误tab问题,解决办法

在一个子页面里面使用uni.switchTab或者wx.switchTab跳转到tab菜单的时候,先发送了一个请求,然后执行跳转到tab菜单,但是这个时候,出错了........也是非常的奇怪,不加请求就没问题......但是业务逻辑就是要先执行某个请…

软件工程---需求工程

软件需求工程师发现、获取、组织、分析、编写和管理需求的系统方法,以使客户和项目组之间达成共识。 需求工程共包含五个步骤: 需求获取:对业务问题分析,与项目干系人沟通,以理解系统的目标、期望和约束,…

React七Formik

Formik是一个专为React构建的开源表单库。它提供了一个易于使用的API来处理表单状态管理,表单验证以及表单提交。Formik支持React中的所有表单元素和事件,可以很好地与React生态系统中的其他库集成。同时,Formik还提供了一些高级功能&#xf…

【Kimi】自动生成PPT-并支持下载和在线编辑--全部免费

【Kimi】免费生成PPT并免费下载 用了好几个大模型,有些能生成PPT内容; 有些能生成PPT,但下载需要付费; 目前只有Kimi生成的PPT,能选择模板、能在线编辑、能下载,关键全部免费! 一、用kimi生成PP…

编写一个程序,计算并输出1到100的和(Python版)

编写一个程序,计算并输出1到100的和 以下是两种计算1到100之和的方法: 方法一:循环累加法(适合编程练习) total 0 for num in range(1, 101):total num print("1到100的和为:", total)原理:通…

MyBatis-Plus 自动填充功能

MyBatis-Plus(MP) 提供了一个非常强大的功能——自动填充功能。该功能可以在执行插入或更新操作时,自动为某些字段赋值,免去手动设置这些字段的麻烦。常见的应用场景包括 创建时间 和 更新时间 字段的自动填充,帮助开发…

final 关键字在不同上下文中的用法及其名称

1. final 变量 名称:final 变量(常量)。 作用:一旦赋值后,值不能被修改。 分类: final 实例变量:必须在声明时或构造函数中初始化。 final 静态变量:必须在声明时或静态代码块中初…