Kafka
Kafka基本概念
卡夫卡是一个分布式、分布订阅的消息系统,作为消息中间件使用。
设计上是一个分布式的、分区的和可复制的提交日志服务。
Kafka的优势
分布式系统,易于扩展。
高吞吐量,支持发布和订阅模式。
支持多地复制,自动平衡消费者。
消息持久化到磁盘,支持批量消费。
消息队列模式
点对点模式:一对一的消费方式,消费者主动拉取消息。
发布订阅模式:一对多的消费方式,消息可以被多个消费者使用。
卡夫卡的角色与特性
主要角色
卡夫卡特性
高吞吐量低延迟:每秒处理几十万条数护,延迟最低几毫秒。
可扩展性;支持集解扩展。
持久性和可靠性:消息持久化到本地破盘,支持数据备份。
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)。
高并发性,支持数千个客户端同时读写。
Kafka集群的安装
登录Kafka的官网Apache Kafka。
Kafka是Java和Scala语言开发的。所以安装Kafka之前必须要保证先安装JDK。
Kafka依赖于Zookeeper的选举机制,所以安装Kafka之前还要保证Zookeeper已经被安装好了。
首先进到software目录当中,如下图所示:
Kafka常用的配置解释
安装部署Spark
步骤
解压缩文件,并重命名为spark-yarn。
修改配置文件