Kafka 搭建过程

目录

  • 1.关于Kafka
  • 2.Kafka 搭建过程
  • 3.参考

本文主要介绍Kafka基本原理,以及搭建过程。

1.关于Kafka

Apache Kafka是一个开源的分布式事件流平台,被设计用来实现实时数据流的发布、订阅、存储和处理。
Kafka的主要特性包括:

  1. 高吞吐量:Kafka可以处理高速流动的数据,并保证数据的写入和读取的高速性。
  2. 分布式:Kafka集群由多个服务器(Broker)组成,数据会被分布存储。
  3. 持久性:Kafka可以将数据持久化到磁盘,因此可以用于长期存储数据。
  4. 容错性:Kafka可以容忍服务器(Broker)的故障,保证数据的可靠性。
  5. 实时性:Kafka可以实时处理流数据。

Kafka可以应用于多种场景,主要包括:

  1. 消息队列:Kafka可以作为一个大规模的消息队列服务,处理生产者和消费者之间的消息传递。
  2. 日志收集:Kafka可以用于收集不同来源的日志数据,并将这些数据集中存储在一个地方,方便后续的日志分析。
  3. 用户活动跟踪:Kafka可以用于跟踪用户的在线活动,如页面浏览、搜索、点击等事件。
  4. 实时流处理:配合流处理框架(如Apache Flink、Apache Storm、Apache Samza等),Kafka可以用于实时处理和分析数据流。
  5. 事件源:Kafka可以作为事件驱动型微服务的事件源,存储事件的历史记录。
  6. 指标和日志聚合:Kafka可以用于收集各种指标(如系统监控指标、业务指标等)和日志,然后将这些数据聚合后发送到后端的存储系统。
  7. 集成和解耦:在微服务架构中,Kafka可以用于解耦服务之间的依赖,每个服务只与Kafka进行交互,从而实现服务的解耦。

以上只是Kafka的部分应用场景,实际上,Kafka的应用非常广泛,可以应用于任何需要处理实时数据流的场景。

Kafka如此强大,背后的工作原理主要涉及到以下几个方面:

  1. 发布-订阅模型:Kafka基于发布-订阅模型,生产者(Producer)将消息发布到特定的主题(Topic)上,消费者(Consumer)订阅主题并消费其中的消息。
  2. 分布式消息系统:Kafka集群由多个Broker组成,每个Broker是一个独立的服务器。主题(Topic)中的消息被分成多个分区(Partition),每个分区的消息可以存储在不同的Broker上,实现了数据的分布式存储。
  3. 消息持久化:Kafka将所有的消息持久化到硬盘上,即使系统发生故障,消息也不会丢失。消费者在消费消息时,只是改变了一个指向消息的偏移量(Offset),而不会删除消息。
  4. 高吞吐量:Kafka通过批量发送消息、零拷贝等技术提高了系统的吞吐量,可以处理大量的实时数据。
  5. 容错性:Kafka的每个分区都可以有多个副本(Replica),副本之间可以互相备份数据,提高了系统的容错性。如果某个Broker发生故障,Kafka可以自动从其他副本中恢复数据。
  6. 消费者组:Kafka的消费者可以组成消费者组(Consumer Group),组内的每个消费者负责消费不同的分区,实现了负载均衡。如果某个消费者发生故障,Kafka可以自动将其分区分配给其他消费者。

以上是Kafka的主要工作原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

另外,简单介绍下 Topic、Partition、Replica之间的关系。

在Kafka中,Topic和Partition是数据组织的基本单位。Topic负责对消息进行分类,Partition则是实现数据存储和读写的基本单位。

  1. Topic:Topic是消息的类别或者说是消息的主题,生产者将消息发布到特定的Topic,消费者从特定的Topic中订阅消息。每个Topic包含一或多个Partition。
  2. Partition:Partition是Topic的分区,每个Topic可以分为一个或多个Partition。Partition是Kafka实现高吞吐量和数据冗余的关键,每个Partition可以在不同的Broker上,数据被写入不同的Partition可以并行进行。在Kafka中,每条消息在每个Partition中都有一个唯一的偏移量(Offset),消费者通过Offset来定位消息。每个Partition在设计上是不可分割的,即消费者在消费一个Partition的数据时,必须按照Offset的顺序进行。
  3. 副本(Replica)是Partition的备份,用于实现数据的冗余存储,提高数据的可靠性。每个Partition可以有一个或多个副本,这些副本分布在不同的Broker上。其中,有一个副本被指定为Leader,其他的副本称为Follower。所有的读写操作都由Leader处理,Follower只负责从Leader同步数据。当Leader宕机时,Kafka会从Follower中选举出一个新的Leader,这个过程称为Leader Election。这样,即使某个Broker宕机,只要有副本存在,数据就不会丢失,读写操作也可以继续进行。副本的数量可以在创建Topic时指定,通过--replication-factor参数设置。副本数量的设置需要根据数据的重要性和集群的容量来决定,副本数量越多,数据的可靠性越高,但是会占用更多的存储空间和网络带宽。

可能大家还有一个疑问,Kafka 是如何实现高吞吐的?

Kafka能够实现高吞吐的原理主要基于以下几个方面:

  1. 分布式架构:Kafka集群由多个Broker组成,每个Topic可以分为多个Partition,每个Partition可以在不同的Broker上,这样可以并行处理多个Partition的读写请求,提高了吞吐量。
  2. 磁盘顺序写:Kafka将所有的消息持久化到硬盘,而且是顺序写入的。顺序写磁盘的速度远高于随机写,因此Kafka的写入性能非常高。
  3. 零拷贝:Kafka在发送消息时使用了零拷贝技术,避免了数据在用户态和内核态之间的多次拷贝,减少了CPU的使用,提高了吞吐量。
  4. 批处理:Kafka的Producer会将多个消息打包成一个Batch发送,Consumer也会一次性从Broker读取多个消息,这样可以减少网络请求的次数,提高了吞吐量。
  5. 消息压缩:Kafka支持消息的压缩,可以减少网络传输的数据量,提高吞吐量。

以上是Kafka实现高吞吐的主要原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

2.Kafka 搭建过程

搭建Kafka集群的基本步骤如下:
(1)环境准备

Kafka运行需要Java环境,所以首先需要在服务器上安装Java。

(2)下载并解压Kafka

从Kafka官网下载Kafka的tar包,然后解压。

tar -xzf kafka_2.x.tgz
cd kafka_2.x

(3) 配置Kafka

修改Kafka的配置文件(位于config/server.properties),主要需要配置的参数包括Broker的ID(broker.id)、监听的地址和端口(listeners)、Zookeeper的地址(zookeeper.connect)等。

(4) 启动Zookeeper
如果没有单独的Zookeeper集群,可以使用Kafka自带的Zookeeper。
bin/zookeeper-server-start.sh config/zookeeper.properties

(5) 启动Kafka
启动Kafka Broker。
bin/kafka-server-start.sh config/server.properties

(6) 创建Topic
创建一个Kafka Topic:
bin/kafka-topics.sh --create --topic test --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

(7) 测试Kafka
可以通过Kafka自带的生产者和消费者进行测试。

#在一个终端中启动生产者
bin/kafka-console-producer.sh --topic test --bootstrap-server localhost:9092
# 在另一个终端中启动消费者
bin/kafka-console-consumer.sh --topic test --from-beginning --bootstrap-server localhost:9092

以上是搭建单节点Kafka集群的基本步骤,搭建多节点集群的步骤类似,只是需要在多台服务器上重复以上步骤,并且需要为每个Broker配置一个唯一的ID,以及正确的监听地址和Zookeeper地址。

3.参考

Apache Kafka文档

包含了Kafka的详细介绍、快速入门指南、配置说明、API文档等内容,是学习和使用Kafka的重要参考资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/95332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10.1 今日任务:select实现服务器并发

#include <myhead.h>#define ERR_MSG(msg) do{\fprintf(stderr, "__%d__:", __LINE__); \perror(msg);\ }while(0)#define PORT 8888 //端口号&#xff0c;范围1024~49151 #define IP "192.168.112.115" //本机IP&#xff0c;ifco…

【Vue3】定义全局变量和全局函数

// main.ts import { createApp } from vue import App from ./App.vue const app createApp(App)// 解决 ts 报错 type Filter {format<T>(str: T): string } declare module vue {export interface ComponentCustomProperties {$filters: Filter,$myArgs: string} }a…

ubuntu安装MySQL

一行指令即可! sudo apt install mysql-server常用MySQL服务指令 sudo service mysql status # 查看服务状态 sudo service mysql start # 启动服务 sudo service mysql stop # 停止服务 sudo service mysql restart # 重启服务终端里面进入Mysql 其中-u后面root是我的用户名…

计算机竞赛 题目:基于FP-Growth的新闻挖掘算法系统的设计与实现

文章目录 0 前言1 项目背景2 算法架构3 FP-Growth算法原理3.1 FP树3.2 算法过程3.3 算法实现3.3.1 构建FP树 3.4 从FP树中挖掘频繁项集 4 系统设计展示5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于FP-Growth的新闻挖掘算法系统的设计与实现…

httpserver 下载服务器demo 以及libevent版本的 httpserver

实现效果如下&#xff1a; 图片可以直接显示 cpp h 这些可以直接显示 其他的 则是提示是否要下载 单线程 还有bug 代码如下 先放上来 #include "httpserver.h" #include "stdio.h" #include <stdlib.h> #include <arpa/inet.h> #include…

QScrollArea样式

简介 QScrollBar垂直滚动条分为sub-line、add-line、add-page、sub-page、up-arrow、down-arrow和handle几个部分。 QScrollBar水平滚动条分为sub-line、add-line、add-page、sub-page、left-arrow、right-arrow和handle几个部分。 部件如下图所示&#xff1a; 样式详…

数据结构与算法(一):概述与复杂度分析

参考引用 Hello 算法 Github 仓库&#xff1a;hello-algo 1. 初识算法 1.1 算法无处不在 1.1.1 二分查找&#xff1a;查阅字典 在字典里&#xff0c;每个汉字都对应一个拼音&#xff0c;而字典是按照拼音字母顺序排列的。假设我们需要查找一个拼音首字母为 r 的字&#xff0…

美妆护肤品商城小程序的作用是什么?

化妆品几乎可以覆盖所有人群&#xff0c;各式各样的品牌及经销商非常多&#xff0c;主要销售模式为门店零售、线上入驻电商平台售卖、批发等&#xff0c;近些年随着电商发展迭代以及消费升级&#xff0c;对品牌或经销商来说&#xff0c;传统经营模式变得低效&#xff0c;每个人…

小程序如何使用自定义组件

使用自定义组件的步骤如下&#xff1a; 创建自定义组件&#xff1a;在小程序项目根目录下的 components 文件夹中创建一个文件夹&#xff0c;然后在该文件夹中创建一个 .json 文件、一个 .wxml 文件和一个 .js 文件&#xff0c;这三个文件分别对应组件的配置、模板和逻辑。 在…

在word文档里面插入漂亮的伪代码

推荐用texsword.0.8 安装与界面 下载链接&#xff1a;https://sourceforge.net/projects/texsword/ 极为轻便&#xff0c;是Word的一个宏 安装过程也是极为简单&#xff0c;复制解压后的 texsword.dotm 文件到 C:\Users\{YOUR_USER_NAME}\AppData\Roaming\Microsoft\Word\ST…

全排列[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给定一个不含重复数字的数组nums&#xff0c;返回其所有可能的全排列。你可以按任意顺序返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例…

【MyBatis-Plus】快速精通Mybatis-plus框架—快速入门

大家在日常开发中应该能发现&#xff0c;单表的CRUD功能代码重复度很高&#xff0c;也没有什么难度。而这部分代码量往往比较大&#xff0c;开发起来比较费时。 因此&#xff0c;目前企业中都会使用一些组件来简化或省略单表的CRUD开发工作。目前在国内使用较多的一个组件就是…

QT商业播放器

QT商业播放器 总体架构图 架构优点&#xff1a;解耦&#xff0c;采用生产者消费者设计模式&#xff0c;各个线程各司其职&#xff0c;通过消息队列高效协作 这个项目是一个基于ijkplayer和ffplayer.c的QT商业播放器, 项目有5部分构成&#xff1a; 前端QT用户界面 后端是集成了…

专题一:双指针【优选算法】

双指针应用场景&#xff1a; 数组划分、数组分块 目录 一、移动0 二、复写0 从后向前 三、快乐数 链表带环 四、盛水最多的容器 单调性双指针 五、有效三角形个数 单调性双指针 六、和为s的两个数字 七、三数之和 细节多 需再练 一、移动0 class Solution { public:void move…

小程序入门笔记(一) 黑马程序员前端微信小程序开发教程

微信小程序基本介绍 小程序和普通网页有以下几点区别&#xff1a; 运行环境&#xff1a;小程序可以在手机的操作系统上直接运行&#xff0c;如微信、支付宝等&#xff1b;而普通网页需要在浏览器中打开才能运行。 开发技术&#xff1a;小程序采用前端技术进行开发&#xff0c;…

Hive【Hive(四)函数-单行函数】

函数 函数简介 方便完成我们一些复杂的操作&#xff0c;就好像我们 Spark 中的 UDF 函数&#xff0c;避免用户反复写逻辑。 Hive 提供了大量的内置函数&#xff0c;主要可以分为以下几类&#xff1a; 单行函数聚合函数炸裂函数窗口函数 下面的命令可以查看内置函数的相关…

Html+Css+Js计算时间差,返回相差的天/时/分/秒(从未来的一个日期时间到当前日期时间的差)。

Html部分 <!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title><link rel"stylesheet" type"text/css" href"css/index.css" /><script src"js/index.js" t…

仿牛客论坛项目 笔记

文章目录 环境配置bean是什么最终成品功能数据库与缓存一致性整个web系统后端的结构spring mvc相关controller常见的代码写法mybatis相关常识测试、调试相关计网相关component相关注解spring全家桶族谱spring衍生框架 run之后发生了什么什么是spring&#xff0c;spring和bean的…

【计算机组成原理】考研真题攻克与重点知识点剖析 - 第 2 篇:数据的表示和运算

前言 本文基础知识部分来自于b站&#xff1a;分享笔记的好人儿的思维导图与王道考研课程&#xff0c;感谢大佬的开源精神&#xff0c;习题来自老师划的重点以及考研真题。此前我尝试了完全使用Python或是结合大语言模型对考研真题进行数据清洗与可视化分析&#xff0c;本人技术…

docker 安装kafka

运行容器 zookeeper: [rootk8s-master ~]# docker run -d --restartalways --log-driver json-file --log-opt max-size100m --log-opt max-file2 --name zookeeper -p 2181:2181 -v /etc/localtime:/etc/localtime zookeeper c603f292813cfd6e2b16fff88a9767cc86fc9bba34d82…