大数据 - Kafka系列《一》- Kafka基本概念

大数据 - Kafka系列《一》- Kafka基本概念

news/2025/4/19 13:51:52/文章来源:https://blog.csdn.net/weixin_40968325/article/details/135589675

目录

🐶1.1 什么是kafka

🐶1.2 Kafka可以用来做什么

🐶1.3 kafka的特点

🥙1. 高吞吐量、低延迟

🥙2. 可扩展性

🥙3. 持久性、可靠性

🥙4. 容错性

🥙5. 高并发

🐶1.4 Kafka的基本架构

1. 🥙Producer:生产者

2. 🥙Broker：中间组件，存储数据

Topic：主题。类似于表的概念

partition：分区。类似于hbase里面的region的概念

3. 🥙Consumer：消费者

4. 🥙Zookeeper

🐶1.1 什么是kafka

Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统，现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性，许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。

一句话概括：Kafka 是一个分布式的基于发布/订阅模式的消息中间件，遵循先进先出的原则，分区内严格有序，但是不能保证全局的有序。

在业界主要应用于大数据实时流式计算领域，起解耦合和削峰填谷的作用。

🐶1.2 Kafka可以用来做什么

总的来讲，Kafka 通常具有 3 重角色：

存储系统：通常消息队列会把消息持久化到磁盘，防止消息丢失，保证消息可靠性。Kafka 的消息持久化机制和多副本机制使其能够作为通用数据存储系统来使用。正常在公司都是存储的json串。
消息系统：Kafka 和传统的消息队列比如 RabbitMQ、RocketMQ、ActiveMQ 类似，支持流量削峰、服务解耦、异步通信等核心功能。
流处理平台(不主流）：Kafka 不仅能够与大多数流式计算框架完美整合，并且自身也提供了一个完整的流式处理库，即 Kafka Streaming。Kafka Streaming 提供了类似 Flink 中的窗口、聚合、变换、连接等功能。

🐶1.3 kafka的特点

🥙1. 高吞吐量、低延迟

kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, 由多个consumer group 对partition进行consume操作。

🥙2. 可扩展性

kafka集群支持热扩展

热扩展是指在系统运行时，无需停机或中断服务的情况下，向系统添加新的资源或节点。对于Kafka集群来说，热扩展意味着可以在不影响正在进行的生产和消费操作的情况下，动态地增加新的Broker节点来提高系统的吞吐量和容量。

🥙3. 持久性、可靠性

消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

🥙4. 容错性

允许集群中有节点失败（若副本数量为n,则允许n-1个节点失败）

🥙5. 高并发

支持数千个客户端同时读写

Kafka在各种应用场景中，起到的作用可以归纳为这么几个术语：削峰填谷，解耦！

在大数据流式计算领域中，kafka主要作为计算系统的前置缓存和输出结果缓存；

🐶1.4 Kafka的基本架构

1. 🥙Producer:生产者

往broker里面写入数据

2. 🥙Broker：中间组件，存储数据

Topic：主题。类似于表的概念

partition：分区。类似于hbase里面的region的概念

副本：leader,follower

3. 🥙Consumer：消费者

从broker里面读出数据

4. 🥙Zookeeper

用来和kafka一起管理整个集群，存储元数据信息

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/630952.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

LINUX基础培训十之服务管理

LINUX基础培训十之服务管理

前言、本章学习目标了解LINUX中的服务种类了解LINUX中常见服务的端口熟悉服务的日常管理掌握添加自定义服务一、Linux系统服务含义及其分类系统服务是在后台运行的应用程序，并且可以提供一些本地系统或网络的功能。我们把这些应用程序称作服务，也…

阅读更多...

【Docker】网络模式详解及容器间网络通信

【Docker】网络模式详解及容器间网络通信

目录一、概述二、默认网络三、网络模式及应用 1. Bridge模式 2. Host模式 3. none网络模式四、自定义网络应用 1. 网络相连 2. 自定义通讯 3. 自定义IP 每篇一获一、概述在 Docker 中，网络设置包括 IP 地址、子网掩码、网关、DNS 和端口号等关键组…

阅读更多...

Redis面试大全

Redis面试大全

1、什么是Redis? Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。 Redis与其他key-value缓存产品有以下三个特点： Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次…

阅读更多...

Unity中图片合成图集Editor工具

Unity中图片合成图集Editor工具

一般图片合成图集用的是Unity自带的SpriteAtlas类添加一个Sprite集合，而所有图片保存在Sprite集合中，然后把Sprite通过Add方法添加到SpriteAtlas类，通过AssetDatabase.CreateAsset()方法来创建图集。

阅读更多...

C语言通过MSXML6.0读写XML文件（同时支持char[]和wchar_t[]字符数组）

C语言通过MSXML6.0读写XML文件（同时支持char[]和wchar_t[]字符数组）

开发环境：Visual Studio 2010 运行环境：Windows XP SP3 第一节读取XML文件（使用wchar_t[]字符数组） /* 这个程序只能在C编译器下编译成功, 请确保源文件的扩展名为c */ #define COBJMACROS #include <stdio.h> #include …

阅读更多...

MYSQL自连接、子查询

MYSQL自连接、子查询

自连接： # board表 mysql> select * from board; --------------------------------- | id | name | intro | parent_id | --------------------------------- | 1 | 后端 | NULL | NULL | | 2 | 前端 | NULL | NULL | | 3 | 移…

阅读更多...

AM5-DB低压备自投装置在河北冠益荣信科技公司洞庭变电站工程中的应用

AM5-DB低压备自投装置在河北冠益荣信科技公司洞庭变电站工程中的应用

摘要：随着电力需求的不断增加，电力系统供电可靠性要求越来越高，许多供电系统已具备两回或多回供电线路。备用电源自动投入装置可以有效提高供电的可靠性，该类装置能够在工作电源因故障断开后，自动且迅速地将备用电源投…

阅读更多...

ElasticSearch高阶使用

ElasticSearch高阶使用

目录一、match_all 二、 text和keyword的区别三、match、term的区别四、exists query 五、 ids query 六、range query范围查询七、prefix query前缀查询八、 wildcard query通配符查询九、 fuzzy query模糊查询十、match query匹配查询十一、multi_match q…

阅读更多...

C++设计模式（李建忠）笔记3

C++设计模式（李建忠）笔记3

C设计模式（李建忠） 本文是学习笔记，如有侵权，请联系删除。参考链接 Youtube: C设计模式 Gtihub源码与PPT：https://github.com/ZachL1/Bilibili-plus 豆瓣: 设计模式–可复用面向对象软件的基础文章目录 C设计模…

阅读更多...

【低危】OpenSSL 拒绝服务漏洞

【低危】OpenSSL 拒绝服务漏洞

漏洞描述 OpenSSL 是广泛使用的开源加密库。在 OpenSSL 3.0.0 到 3.0.12, 3.1.0 到 3.1.4 和 3.2.0 中 ，使用函数 EVP_PKEY_public_check() 来检查 RSA 公钥的应用程序可能会遇到长时间延迟。如果检查的密钥是从不可信任的来源获取的，这可能会导致拒绝…

阅读更多...

Nodejs 第三十二章（数据库）

Nodejs 第三十二章（数据库）

MySQL是一种开源的关系型数据库管理系统（RDBMS），它是最受欢迎的数据库系统之一。MySQL广泛用于Web应用程序和其他需要可靠数据存储的应用程序中。以下是MySQL数据库的一些重要特点和概念： 数据库：MySQL是一个数据库…

阅读更多...

龙腾荆楚 | 软件供应链安全检测中心落地襄阳

龙腾荆楚 | 软件供应链安全检测中心落地襄阳

1月16日，襄阳市东津新区“园区提质、企业满园”行动暨2024年东津云谷首月重大项目集中签约活动圆满完成，开源网安城市级项目再下一城，分别与襄阳市政府、高校、国投签订战略合作协议，推动荆楚地区数字政府、数字经济、数字社会、数…

阅读更多...

【MATLAB源码-第115期】基于matlab的QSM正交空间调制系统仿真，输出误码率曲线。

【MATLAB源码-第115期】基于matlab的QSM正交空间调制系统仿真，输出误码率曲线。

操作环境： MATLAB 2022a 1、算法描述正交空间调制（QSM）是一种先进的无线通信技术，它通过利用发射端的多天线阵列来传输信息，从而提高了数据传输的效率和速率。这种技术的关键在于它使用天线阵列的空间特性来编码额…

阅读更多...

情人节专属--html5 canvas制作情人节告白爱心动画特效

情人节专属--html5 canvas制作情人节告白爱心动画特效

💖效果展示 💖html展示 <!doctype html> <html> <head> <meta charset=

阅读更多...

maven 配置http私服Since Maven 3.8.1 http repositories are blocked. 报错处理

maven 配置http私服Since Maven 3.8.1 http repositories are blocked. 报错处理

刷maven报错 com.saas:pdf:pom:0.0.1 failed to transfer from http://0.0.0.0/ during a previous attempt. This failure was cached in the local repository and resolution is not reattempted until the update interval of maven-default-http-blocker has elapsed or …

阅读更多...

七陌API对接实战：外呼接口及通话记录推送

七陌API对接实战：外呼接口及通话记录推送

通过白码低代码开发平台对接七陌外呼接口，实现选择客户进行外呼，并保存通话记录的功能。外呼接口实现： 官方接口文档：http://developer.7moor.com/v2docs/dialout/ 1、对接数据查询向七陌商务索取到七陌用户中心账号密码&a…

阅读更多...

7.5 MySQL对数据的增改删操作(❤❤❤)

7.5 MySQL对数据的增改删操作(❤❤❤)

7.5 MySQL对数据的基本操作 1. 提要2. 数据添加2.1 insert语法2.2 insert 子查询2.3 ignore关键字 3. 数据修改3.1 update语句3.2 update表连接 4. 数据删除4.1 delete语句4.2 delete表连接4.3 快速删除数据表全部数据 1. 提要 2. 数据添加 2.1 insert语法 2.2 insert 子查询 …

阅读更多...

Python 一行命令部署http、ftp服务

Python 一行命令部署http、ftp服务

Python 一行命令部署http服务文章目录 Python 一行命令部署http服务具体操作命令如下浏览器返回下载Python 一行命令部署FTP服务具体操作命令如下这个比nginx相对来说更加简单，可以用于部署特殊场景时如银行等部署时，各种权限控制，内网之间…

阅读更多...

数据库系统概论第1章绪论 1.1数据库的四个基本概念

数据库系统概论第1章绪论 1.1数据库的四个基本概念

1.1.1 数据库的4个基本概念 - 数据(Data) - 数据库(Database, DB) - 数据库管理系统(DataBase Management System, DBMS) - 数据库系统(DataBase System, DMS) 1. 数据 - 数据(Data)是数据库中存储…

阅读更多...

计图大模型推理库部署指南，CPU跑大模型，具有高性能、配置要求低、中文支持好、可移植等特点

计图大模型推理库部署指南，CPU跑大模型，具有高性能、配置要求低、中文支持好、可移植等特点

Excerpt 计图大模型推理库，具有高性能、配置要求低、中文支持好、可移植等特点计图大模型推理库，具有高性能、配置要求低、中文支持好、可移植等特点计图大模型推理库 - 笔记本没有显卡也能跑大模型本大模型推理库JittorLLMs有以下几个特点：成本低：相比同类框架，本库…

阅读更多...

最新文章