Spark-Streaming+Kafka+mysql实战示例

文章目录

前言
一、简介
- 1. Spark-Streaming简介
- 2. Kafka简介
二、实战演练
- 1. MySQL数据库部分
- 2. 导入依赖
- 3. 编写实体类代码
- 4. 编写kafka主题管理代码
- 5. 编写kafka生产者代码
- 6. 编写Spark-Streaming代码
总结

前言

本文将介绍一个使用Spark Streaming和Kafka进行实时数据处理的示例。通过该示例，读者将了解到如何使用Spark Streaming和Kafka处理实时数据流，以及如何将处理后的数据保存到MySQL数据库中。示例涵盖了从环境搭建到代码实现的全过程，帮助读者快速上手实时数据处理的开发。

一、简介

1. Spark-Streaming简介

Spark Streaming是Apache Spark的一个组件，用于实时流数据处理。它提供了高级别的API，可以使用类似于批处理的方式处理实时数据流。Spark Streaming可以与各种消息队列系统集成，包括Kafka、RabbitMQ等。

2. Kafka简介

Kafka是一个分布式流处理平台，具有高吞吐量、可扩展性和可靠性。它提供了一种可持久化、分布式、分区的日志服务，用于处理实时数据流。Kafka使用发布-订阅模型，消息被发布到一个或多个主题，然后由订阅该主题的消费者进行消费。

二、实战演练

1. MySQL数据库部分

这部分代码用于创建MySQL数据库和数据表，以及将从Kafka获取的数据保存到数据库中。

create database kafkademo;

创建数据表：

CREATE TABLE kafka_tb
(`txid`      varchar(255) PRIMARY KEY,`version`   varchar(255),`connector` varchar(255),`name`      varchar(255),`ts_ms`     varchar(255),`snapshot`  varchar(255),`db`        varchar(255),`sequence`  varchar(255),`schema`    varchar(255),`table`     varchar(255),`lsn`       varchar(255),`xmin`      varchar(255)
);

2. 导入依赖

这部分代码是Maven的依赖配置，用于引入所需的Spark、Kafka和MySQL相关的库。

<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.26</version>
</dependency>
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.4.0</version>
</dependency>
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.4.0</version>
</dependency>
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2.4.0</version>
</dependency>
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.11</artifactId><version>2.4.0</version>
</dependency>
<dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-clients</artifactId><version>2.8.0</version>
</dependency>
<dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><scope>compile</scope>
</dependency>

3. 编写实体类代码

这部分代码定义了一个Java类EntityMessage，用于将从Kafka获取的JSON数据转换为Java对象。

import lombok.Data;import java.io.Serializable;@Data
public class EntityMessage implements Serializable {private String op;private String ts_ms;private String transaction;private DataItem dataItem;@Datapublic static class DataItem {private String version;private String connector;private String name;private String ts_ms;private String snapshot;private String db;private String[] sequence;private String schema;private String table;private String txId;private String lsn;private String xmin;}
}

4. 编写kafka主题管理代码

这部分代码用于创建、删除和修改Kafka主题的一些操作。

import org.apache.kafka.clients.admin.*;
import org.apache.kafka.common.KafkaFuture;
import org.apache.kafka.common.config.ConfigResource;import java.util.*;
import java.util.concurrent.ExecutionException;public class KafkaTopicManager {private static final String BOOTSTRAP_SERVERS = "192.168.145.103:9092,192.168.145.104:9092,192.168.145.105:9092";public void createTopic(String topicName, int numPartitions, short replicationFactor) throws ExecutionException, InterruptedException {Properties properties = new Properties();properties.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, BOOTSTRAP_SERVERS);