Kafka 操作之分层存储(Tiered Storage)

目录

一. 前言

二. 分层存储(Tiered Storage)

2.1. 分层存储概述(Tiered Storage Overview)

2.2. 配置(Configuration)

2.2.1. Broker 配置(Broker Configurations)

2.2.2. Topic 配置(Topic Configurations)

2.3. 快速入门示例(Quick Start Example)

2.4. 局限性(Limitations)


一. 前言

    Kafka 分层存储通常是通过配置 Kafka 的日志保留策略来实现的,而不是直接通过代码来实现的。Kafka 支持基于时间和基于大小的日志保留策略。

二. 分层存储(Tiered Storage)

2.1. 分层存储概述(Tiered Storage Overview)

原文引用:Kafka data is mostly consumed in a streaming fashion using tail reads. Tail reads leverage OS's page cache to serve the data instead of disk reads. Older data is typically read from the disk for backfill or failure recovery purposes and is infrequent.

    Kafka 数据主要是以流式方式使用尾部读取来消耗的。尾部读取利用操作系统的页面缓存来提供数据,而不是磁盘读取。较旧的数据通常是为了回填或故障恢复而从磁盘中读取的,而且这种情况并不常见。

原文引用:In the tiered storage approach, Kafka cluster is configured with two tiers of storage - local and remote. The local tier is the same as the current Kafka that uses the local disks on the Kafka brokers to store the log segments. The new remote tier uses external storage systems, such as HDFS or S3, to store the completed log segments. Please check KIP-405 for more information.

    在分层存储方法中,Kafka 集群配置有两层存储——本地和远程。本地层与当前的 Kafka 相同,后者使用 Kafka Broker 上的本地磁盘来存储日志段。新的远程层使用外部存储系统(如 HDFS 或S3)来存储已完成的日志段。请查看 KIP-405 了解更多信息。

原文引用:Note: Tiered storage is considered as an early access feature, and is not recommended for use in production environments

    注意:分层存储被视为早期访问功能,不建议在生产环境中使用。

2.2. 配置(Configuration)

2.2.1. Broker 配置(Broker Configurations)

原文引用:By default, Kafka server will not enable tiered storage feature. remote.log.storage.system.enable is the property to control whether to enable tiered storage functionality in a broker or not. Setting it to "true" enables this feature.

    默认情况下,Kafka 服务器不会启用分层存储功能。remote.log.storage.system.enable 是用于控制是否在 Broker 中启用分层存储功能的属性。将其设置为“true”将启用此功能。

原文引用:RemoteStorageManager is an interface to provide the lifecycle of remote log segments and indexes. Kafka server doesn't provide out-of-the-box implementation of RemoteStorageManager. Configuring remote.log.storage.manager.class.name and remote.log.storage.manager.class.path to specify the implementation of RemoteStorageManager.

    RemoteStorageManager 是一个提供远程日志段和索引的生命周期的接口。Kafka 服务器不提供 RemoteStorageManager 的开箱即用实现。配置 remote.log.storage.manager.class.nameremote.log.store.manager.class.path 以指定 RemoteStorageManager 的实现。

原文引用:RemoteLogMetadataManager is an interface to provide the lifecycle of metadata about remote log segments with strongly consistent semantics. By default, Kafka provides an implementation with storage as an internal topic. This implementation can be changed by configuring remote.log.metadata.manager.class.name and remote.log.metadata.manager.class.path. When adopting the default kafka internal topic based implementation, remote.log.metadata.manager.listener.name is a mandatory property to specify which listener the clients created by the default RemoteLogMetadataManager implementation. 

    RemoteLogMetadataManager 是一个接口,用于提供具有强一致语义的远程日志段元数据的生命周期。默认情况下,Kafka 提供了一个将存储作为内部 Topic 的实现。可以通过配置remote.log.metadata.manager.class.nameremote.log.etadata.manager.class.path 来更改此实现。当采用默认的基于 Kafka 内部 Topic 的实现时,remote.log.metadata.manager.listener.name是一个强制属性,用于指定由默认 RemoteLogMetadataManager 实现创建的客户端的侦听器。

2.2.2. Topic 配置(Topic Configurations)

原文引用:After correctly configuring broker side configurations for tiered storage feature, there are still configurations in topic level needed to be set. remote.storage.enable is the switch to determine if a topic wants to use tiered storage or not. By default it is set to false. After enabling remote.storage.enable property, the next thing to consider is the log retention. When tiered storage is enabled for a topic, there are 2 additional log retention configurations to set:

  • local.retention.ms
  • retention.ms
  • local.retention.bytes
  • retention.bytes

    在为分层存储功能正确配置了 Broker 端配置之后,仍然需要设置 Topic 级别的配置。remote.storage.enable 是用于确定 Topic 是否要使用分层存储的开关。默认情况下,它设置为false。启用 remote.storage.enable 属性后,接下来要考虑的是日志保留。当为某个 Topic 启用分层存储时,还需要设置2个额外的日志保留配置:

  • local.retension.ms
  • retension.ms
  • local.retension.bytes
  • retention.bytes 

原文引用:The configuration prefixed with local are to specify the time/size the "local" log file can accept before moving to remote storage, and then get deleted. If unset, The value in retention.ms and retention.bytes will be used.

    前缀为 local 的配置用于指定“本地”日志文件在移动到远程存储之前可以接受的时间/大小,然后删除。如果未设置,将使用 retention.ms 和 retention.bytes 中的值。

2.3. 快速入门示例(Quick Start Example)

原文引用:Apache Kafka doesn't provide an out-of-the-box RemoteStorageManager implementation. To have a preview of the tiered storage feature, the LocalTieredStorage implemented for integration test can be used, which will create a temporary directory in local storage to simulate the remote storage.

To adopt the `LocalTieredStorage`, the test library needs to be built locally

    Apache Kafka 没有提供现成的 RemoteStorageManager 实现。要预览分层存储功能,可以使用为集成测试实现的 LocalTieredStorage,它将在本地存储中创建一个临时目录来模拟远程存储。

    要采用“LocalTieredStorage”,需要在本地构建测试库

# please checkout to the specific version tag you're using before building it
# ex: `git checkout 3.6.1`
./gradlew clean :storage:testJar

原文引用:After build successfully, there should be a `kafka-storage-x.x.x-test.jar` file under `storage/build/libs`. Next, setting configurations in the broker side to enable tiered storage feature.

    构建成功后,“storage/build/libs”下应该有一个“kafka-storage-x.x-test.jar”文件。接下来,在 Broker 端设置配置以启用分层存储功能。

# Sample Zookeeper/Kraft broker server.properties listening on PLAINTEXT://:9092
remote.log.storage.system.enable=true# Setting the listener for the clients in RemoteLogMetadataManager to talk to the brokers.
remote.log.metadata.manager.listener.name=PLAINTEXT# Please provide the implementation info for remoteStorageManager.
# This is the mandatory configuration for tiered storage.
# Here, we use the `LocalTieredStorage` built above.
remote.log.storage.manager.class.name=org.apache.kafka.server.log.remote.storage.LocalTieredStorage
remote.log.storage.manager.class.path=/PATH/TO/kafka-storage-x.x.x-test.jar# These 2 prefix are default values, but customizable
remote.log.storage.manager.impl.prefix=rsm.config.
remote.log.metadata.manager.impl.prefix=rlmm.config.# Configure the directory used for `LocalTieredStorage`
# Note, please make sure the brokers need to have access to this directory
rsm.config.dir=/tmp/kafka-remote-storage# This needs to be changed if number of brokers in the cluster is more than 1
rlmm.config.remote.log.metadata.topic.replication.factor=1# Try to speed up the log retention check interval for testing
log.retention.check.interval.ms=1000

原文引用:Following quick start guide to start up the kafka environment. Then, create a topic with tiered storage enabled with configs:

    按照快速入门指南启动 Kafka 环境。然后,创建一个 Topic,其中使用配置启用了分层存储:

# remote.storage.enable=true -> enables tiered storage on the topic
# local.retention.ms=1000 -> The number of milliseconds to keep the local log segment before it gets deleted.Note that a local log segment is eligible for deletion only after it gets uploaded to remote.
# retention.ms=3600000 -> when segments exceed this time, the segments in remote storage will be deleted
# segment.bytes=1048576 -> for test only, to speed up the log segment rolling interval
# file.delete.delay.ms=10000 -> for test only, to speed up the local-log segment file delete delaybin/kafka-topics.sh --create --topic tieredTopic --bootstrap-server localhost:9092 \
--config remote.storage.enable=true --config local.retention.ms=1000 --config retention.ms=3600000 \
--config segment.bytes=1048576 --config file.delete.delay.ms=1000

    尝试将消息发送到“tieredTopic”以滚动日志段(Try to send messages to the `tieredTopic` topic to roll the log segment):

bin/kafka-producer-perf-test.sh --topic tieredTopic --num-records 1200 --record-size 1024 --throughput -1 --producer-props bootstrap.servers=localhost:9092

原文引用:Then, after the active segment is rolled, the old segment should be moved to the remote storage and get deleted. This can be verified by checking the remote log directory configured above. For example:

    然后,在滚动活动段之后,应将旧段移动到远程存储并删除。这可以通过检查上面配置的远程日志目录来验证。例如:

> ls /tmp/kafka-remote-storage/kafka-tiered-storage/tieredTopic-0-jF8s79t9SrG_PNqlwv7bAA
00000000000000000000-knnxbs3FSRyKdPcSAOQC-w.index
00000000000000000000-knnxbs3FSRyKdPcSAOQC-w.snapshot
00000000000000000000-knnxbs3FSRyKdPcSAOQC-w.leader_epoch_checkpoint
00000000000000000000-knnxbs3FSRyKdPcSAOQC-w.timeindex
00000000000000000000-knnxbs3FSRyKdPcSAOQC-w.log

原文引用:Lastly, we can try to consume some data from the beginning and print offset number, to make sure it will successfully fetch offset 0 from the remote storage.

    最后,我们可以尝试从一开始就消耗一些数据并打印偏移量编号,以确保它能成功地从远程存储中获取偏移量 0。

bin/kafka-console-consumer.sh --topic tieredTopic --from-beginning --max-messages 1 --bootstrap-server localhost:9092 --property print.offset=true

原文引用:Please note, if you want to disable tiered storage at the cluster level, you should delete the tiered storage enabled topics explicitly. Attempting to disable tiered storage at the cluster level without deleting the topics using tiered storage will result in an exception during startup.

    请注意,如果要在集群级别禁用分层存储,则应明确删除启用分层存储的 Topic。尝试在集群级别禁用分层存储而不删除使用分层存储的 Topic,将导致启动过程中出现异常。

bin/kafka-topics.sh --delete --topic tieredTopic --bootstrap-server localhost:9092

原文引用:After topics are deleted, you're safe to set remote.log.storage.system.enable=false in the broker configuration.

    删除主题后,可以安全地在 Broker 配置中设置 remote.log.storage.system.enable=false

2.4. 局限性(Limitations)

原文引用:While the early access release of Tiered Storage offers the opportunity to try out this new feature, it is important to be aware of the following limitations:

  • No support for clusters with multiple log directories (i.e. JBOD feature)
  • No support for compacted topics
  • Cannot disable tiered storage at the topic level
  • Deleting tiered storage enabled topics is required before disabling tiered storage at the broker level
  • Admin actions related to tiered storage feature are only supported on clients from version 3.0 onwards

For more information, please check Tiered Storage Early Access Release Note.

虽然分层存储的早期访问版本提供了尝试这一新功能的机会,但重要的是要注意以下限制:

  • 不支持具有多个日志目录的集群(即 JBOD 功能)。
  • 不支持压缩 Topic。
  • 无法在 Topic 级别禁用分层存储。
  • 在 Broker 级别禁用分层存储之前,需要删除启用了分层存储的 Topic。
  • 只有 3.0 版以后的客户端才支持与分层存储功能相关的管理操作。

有关详细信息,请查看《Tiered Storage Early Access Release Note》。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/852384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

笔记99:OSQP 求解器示例代码

注1:以下代码是 OSQP 的官方文档提供的示例,我加上了详细的注释; 注2:OSQP 库仅支持C语言,不支持C,所以下面的示例代码使用的是C语言;但是 OSQP 求解库提供了针对C的接口 OSQP-EIGEN&#xff1…

leetcode240 搜索二维矩阵II

题目 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 输入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,24],[18…

ASP淘特二手房房地产系统源码

源码介绍 ASP淘特二手房房地产系统源码主要提供了房屋信息出售、出租、求购、求租、合租等信息的发布平台。 本系统已提供成熟的赢利模式,通过向中介会员提供发布信息平台收取会员费为网站的主要收入来源,中介会员申请开通后,可以添加经济人…

Ubuntu 的 apt 相关问题

错误:1 http://mirrors.tuna.tsinghua.edu.cn/ubuntu focal InRelease Couldnt create temporary file /tmp/apt.conf.KSeTlI for passing config to apt-key 原因 无法创建配置文件 /tmp/apt.conf.KSeTlI 并传递给 apt-key apt-key 等实际上并不是直接使…

phpcms仿蚁乐购淘宝客网站模板

phpcms仿蚁乐购网站模板,淘宝客行业模板免费下载,该模板网站很容易吸引访客点击,提升ip流量和pv是非常有利的。本套模板采用现在非常流行的全屏自适应布局设计,且栏目列表以简洁,非常时尚大气。页面根据分辨率大小而自…

MySQL 用户权限管理:授权、撤销、密码更新和用户删除(图文解析)

目录 前言1. 授予权限2. 撤销权限3. 查询权限4. Demo 前言 公司内部的数据库权限一般针对不同人员有不同的权限分配,而不都统一给一个root权限 1. 授予权限 授予用户权限的基本命令是GRANT 可以授予的权限种类很多,涵盖从数据库和表级别到列和存储过…

分析解读NCCL_SHM_Disable与NCCL_P2P_Disable

在NVIDIA的NCCL(NVIDIA Collective Communications Library)库中,NCCL_SHM_Disable 和 NCCL_P2P_Disable 是两个重要的环境变量,它们控制着NCCL在多GPU通信中的行为和使用的通信机制。下面是对这两个环境变量的详细解读&#xff1…

基于改进字典学习的旋转机械故障诊断方法(MATLAB)

在过去的二十年里,稀疏表示在各个领域引起了广泛的关注。它的核心思想是将信号描述为尽量少的字典原子,在计算机视觉、生物学、特征提取和机械故障诊断方面显示出强大而可靠的能力。SR通常分为两个步骤:构建字典和学习稀疏系数。对于稀疏系数…

tf-idf算法

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词语对于一个文档集或一个语料库的重要程度。TF-IDF的基本思想是:如果一个词语在某个文档中出现的次数多,并且…

settings和toolchains.xml 区别用法配置

在 IntelliJ IDEA 中配置 Maven 项目时,settings.xml 和 toolchains.xml 的使用场景有所不同。以下是具体的使用情景和配置方法: 1. 使用 settings.xml 使用场景 全局或用户级别的配置:包括设置本地仓库位置、远程仓库、代理服务器、认证信…

k8s+RabbitMQ单机部署

1 k8s 配置文件yaml: apiVersion: apps/v1 kind: Deployment metadata:name: rabbitmq-deploynamespace: rz-dt spec:replicas: 1selector:matchLabels:app: rabbitmqtemplate:metadata:labels:app: rabbitmqspec:containers:- name: rabbitmqimage: "rz-dt-image-server…

MySQL从入门到高级 --- 15.优化 16.pymysql

文章目录 第十五章 && 第十六章:15.优化15.1 查询SQL执行效率15.2 定位低效率执行SQL15.3 explain分析执行计划 - 基本使用15.4 explain分析执行计划 - id15.5 explain分析执行计划 - select_type15.6 explain分析执行计划 - type15.7 explain分析执行计划 …

Java:爬虫htmlunit抓取a标签

如果对htmlunit还不了解的话可以参考Java:爬虫htmlunit-CSDN博客 了解了htmlunit之后,我们再来学习如何在页面中抓取我们想要的数据,我们在学习初期可以找一些结构比较清晰的网站来做测试爬取,首先我们随意找个网站如下&#xff…

【5.x】ELK日志分析

ELK日志分析 一、ELK概述 1、ELK简介 ELK平台是一套完整的日志集中处理解决方案,将ElasticSearch、Logstash和Kiabana三个开源工具配合使用,完成更强大的用户对日志的查询、排序、统计需求。 一个完整的集中式日志系统,需要包含以下几个主…

百度网盘限速解决办法

文章目录 开启P2P下载30秒会员下载体验一次性高速下载服务导入“百度网盘青春版”后下载注册新号参与活动 获取下载直链后使用磁力链接下载不是办法的办法无效、已失效方法免限速客户端、老版本客户端、永久会员下载体验试用客户端,或类似脚本、工具获取下载直链后多…

linux执行ifconfig命令ens33没有显示ip地址解决方法

1.右键启动VMware DHCP和NAT这两个服务 2.执行reboot命令,重启linux。然后再执行ifconfig命令,可以看到inet了,就是ip。xshell也可以连接到主机了。

复旦微FMQL20SM全国产ARM+FPGA核心板,替代xilinx ZYNQ7020系列

FMQL20SM核心板一款全国产工业核心板。基于复旦微FMQL20S400M四核ARM Cortex-A7(PS端) FPGA可编程逻辑资源(PL端)异构多核SoC处理器设计的全国产工业核心板,PS端主频高达1GHz。 核心板简介 FMQL20SM核心板是一款全国…

网络安全练气篇——操作系统基础

目录 windows系统基础 什么是windows? windows用户和管理组 1、用户管理和组管理 三种方式登录 相关命令行 2、windows防火墙 3、windows目录 4、windows服务 5、常见端口及其相对应的服务 6、windows进程 7、windows注册表 8、常见的dos命令 系统信息 网络 用…

RK3568平台(显示篇)HDMIOUT调试

一.HDMIOUT代码路径 DRM 全称是 Direct Rendering Manager 是 DRI ( Direct Rendering Infrastructure ) 框架的一个 组件。LINUX 4.4/4.19 内核采用 DRM 框架, HDMI 驱动的路径为: kernel/drivers/gpu/drm/rockchip/dw_hdmi-Rockchip.c kernel/driv…

【Spine学习07】之跑步动作制作思路总结

前几节试着做了待机和走路动画 现在开始尝试做跑步动作 注意跑步动作和走路一样 暂时不需要使用IK约束但是会用到塞贝尔曲线(模拟裙子飞起动效) 第一步: 先将人物整体斜放置(因为人跑步的时候,身体前倾) …