简述
该例子为从一个Collection获取数据然后插入到另外一个Collection中。
Flink的基本处理过程可以清晰地分为以下几个阶段:
- 数据源(Source):
- Flink可以从多种数据源中读取数据,如Kafka、RabbitMQ、HDFS等。
- Flink会将从数据源中读取到的数据转化为一个个数据流,这些数据流可以是无限大的(如实时数据流),也可以是有限大小的(如批量数据流)。
- 数据转换(Transformation):
- Flink提供了各种数据转换算子(Operators),可以对数据流进行各种操作,包括map、filter、reduce、join等。
- 这些算子帮助用户对数据流进行各种数据处理和计算操作。
- 在Flink中,主要有三类Operator:
- Source Operator:负责数据来源操作,如从文件、socket、Kafka等读取数据。
- Transformation Operator:负责数据转换,如map、flatMap、reduce等算子。
- Sink Operator:负责数据落地操作,如将数据写入Hdfs、Mysql、Kafka等。
- 数据输出(Sink):
- Flink会将处理后的数据输出到指定的目标,这些目标可以是多种类型的数据存储系统,如Kafka、HDFS、MySQL等。
- Flink支持将数据输出到多个目标,并可以进行复制备份。
- Flink核心组件和工作流程:
- Flink在运行中主要有三个核心组件:JobClient、JobManager和TaskManager。
- 用户首先提交Flink程序到JobClient,经过JobClient的处理、解析、优化后提交到JobManager,最后由TaskManager运行task。
- JobClient是Flink程序和JobManager交互的桥梁,主要负责接收程序、解析程序的执行计划、优化程序的执行计划,然后提交执行计划到JobManager。
- 执行图(ExecutionGraph):
- Flink中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。
- 每一个dataflow以一个或多个sources开始,以一个或多个sinks结束,dataflow类似于任意的有向无环图(DAG)。
- 优化过程:
- Flink会对用户提交的执行计划进行优化,主要优化是将相邻的Operator融合,形成OperatorChain,以提高处理效率。
代码
主要函数
package com.wfg.flink.connector.mongodb;import com.alibaba.fastjson2.JSON;
import com.mongodb.client.model.InsertOneModel;
import com.wfg.flink.connector.mongodb.model.WellCastingInfo;
import com.wfg.flink.connector.mongodb.schema.WellCastingInfoDeserializationSchema;
import lombok.extern.slf4j.Slf4j;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.configuration.MemorySize;
import org.apache.flink.connector.mongodb.sink.MongoSink;
import org.apache.flink.connector.mongodb.source.MongoSource;
import org.apache.flink.connector.mongodb.source.enumerator.splitter.PartitionStrategy;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.bson.BsonDocument;/*** @author wfg*/
@Slf4j
public class Main {public static void main(String[] args) throws Exception {MongoSource<WellCastingInfo> mongoSource = MongoSource.<WellCastingInfo>builder().setUri("mongodb://root:123456@127.0.0.1:27017,127.0.0.1:27018,127.0.0.1:27019/admin?replicaSet=rs0&authSource=admin").setDatabase("uux").setCollection("castingInfo")
// .setProjectedFields("_id", "f0", "f1").setFetchSize(2048).setLimit(10000).setNoCursorTimeout(true).setPartitionStrategy(PartitionStrategy.SAMPLE).setPartitionSize(MemorySize.ofMebiBytes(64)).setSamplesPerPartition(10).setDeserializationSchema(new WellCastingInfoDeserializationSchema()).build();StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 从 MongoDB 读取数据DataStream<WellCastingInfo> sourceStream = env.fromSource(mongoSource, WatermarkStrategy.noWatermarks(), "Mongo Source");// 进行转换(如果需要)DataStream<WellCastingInfo> transformedStream = sourceStream.map((MapFunction<WellCastingInfo, WellCastingInfo>) value -> {// 转换逻辑return value;});MongoSink<WellCastingInfo> sink = MongoSink.<WellCastingInfo>builder().setUri("mongodb://root:123456@127.0.0.1:27017,127.0.0.1:27018,127.0.0.1:27019/admin?replicaSet=rs0&authSource=admin").setDatabase("uux").setCollection("castingInfo_back").setMaxRetries(3)
// .setDeliveryGuarantee(DeliveryGuarantee.AT_LEAST_ONCE).setSerializationSchema((input, context) -> new InsertOneModel<>(BsonDocument.parse(JSON.toJSONString(input)))).build();transformedStream.sinkTo(sink);
// stream.sinkTo(sink);// 执行作业env.execute("Mongo Flink Demo");}
}
数据解析处理
package com.wfg.flink.connector.mongodb.schema;import com.alibaba.fastjson2.JSONObject;
import com.alibaba.fastjson2.JSONReader;
import com.wfg.flink.connector.mongodb.model.WellCastingInfo;
import lombok.extern.slf4j.Slf4j;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.typeutils.TypeExtractor;
import org.apache.flink.connector.mongodb.source.reader.deserializer.MongoDeserializationSchema;
import org.bson.BsonDocument;import java.util.Date;/*** @author wfg*/
@Slf4j
public class WellCastingInfoDeserializationSchema implements MongoDeserializationSchema<WellCastingInfo> {@Overridepublic WellCastingInfo deserialize(BsonDocument bsonDocument) {WellCastingInfo rs = null;try {JSONObject obj = JSONObject.parseObject(bsonDocument.toJson());obj.remove("_id");obj.remove("time");obj.remove("_class");rs = obj.to(WellCastingInfo.class, JSONReader.Feature.IgnoreAutoTypeNotMatch);if (bsonDocument.getObjectId("_id") != null) {rs.setId(bsonDocument.getObjectId("_id").getValue().toString());}if (bsonDocument.get("time") != null) {rs.setTime(new Date(bsonDocument.getDateTime("time").getValue()));}} catch (Exception e) {log.error("数据格式错误:{}:{}", bsonDocument.toJson(), e);}return rs;}@Overridepublic TypeInformation<WellCastingInfo> getProducedType() {return TypeExtractor.getForClass(WellCastingInfo.class);}}
数据类
package com.wfg.flink.connector.mongodb.model;import lombok.Data;import java.util.Date;/*** @author wfg*/
@Data
public class WellCastingInfo {private String id;private String comCode;private Date time;private String yjsfzt;private String yjsyl;private String jjaqzfzt;private String spjk01;private String jyjqy;
}
pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.wfg.flink.connector</groupId><version>1.0-SNAPSHOT</version><artifactId>connector-mongodb</artifactId><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><flink.version>1.18.1</flink.version><log4j.version>2.14.1</log4j.version></properties><dependencies><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.18.30</version><scope>provided</scope></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-mongodb</artifactId><version>1.1.0-1.18</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-base</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-slf4j-impl</artifactId></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-api</artifactId><version>${log4j.version}</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>${log4j.version}</version></dependency><dependency><groupId>com.alibaba.fastjson2</groupId><artifactId>fastjson2</artifactId><version>2.0.50</version></dependency></dependencies>
</project>
说明
MongoSource
MongoSource通常指的是一个自定义的数据源(Source),用于从MongoDB数据库中读取数据。
- 依赖
首先,需要在项目的pom.xml文件中引入Flink MongoDB连接器的依赖。这通常包括Flink的MongoDB连接器以及MongoDB的Java驱动。例如:
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-mongodb</artifactId><version>1.1.0-1.18</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-base</artifactId><version>${flink.version}</version></dependency>
- 创建MongoSource
创建一个自定义的MongoSource类,该类通常继承自Flink的RichSourceFunction或其他相关的Source Function接口。在这个类中,需要实现与MongoDB的连接、查询和数据读取的逻辑。 - 关键方法
- **open(Configuration parameters):**在这个方法中,可以初始化MongoDB的连接,如创建一个MongoClient实例。
- **run(SourceContext ctx):**这个方法负责从MongoDB中读取数据,并将数据发送到Flink的SourceContext中。可以使用MongoDB的查询API来执行查询操作,并将结果转换为Flink可以处理的数据类型(如Tuple、POJO等)。
- **cancel():**当Flink作业被取消时,这个方法会被调用。可以在这个方法中关闭MongoDB的连接或执行其他清理操作。
- 配置和使用MongoSource
可以通过调用StreamExecutionEnvironment的addSource方法来添加自定义MongoSource。例如:
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<YourDataType> dataStream = env.addSource(new YourMongoSource());
// ... 后续的数据处理和转换操作 ...
注意事项:
- 确保MongoDB服务器的地址、端口和凭据等信息在MongoSource中正确配置。
- 根据需求,可以调整MongoDB的查询条件、分页参数等,以控制从MongoDB中读取的数据量和频率。
- 如果Flink作业需要处理大量的数据,考虑使用MongoDB的索引来优化查询性能。
- 在处理完数据后,确保关闭与MongoDB的连接,以避免资源泄漏。
env.fromSource
env.fromSource 并不是一个直接的方法或表达式。env 通常指的是 Flink 的 StreamExecutionEnvironment 或 ExecutionEnvironment 对象,它们用于设置 Flink 流处理或批处理作业的上下文和执行环境。
然而,为了从外部数据源读取数据到 Flink 作业中,会使用 env 对象上的各种方法来创建数据源。例如,对于流处理,可能会使用 env.addSource(sourceFunction),其中 sourceFunction 是一个实现了 SourceFunction 接口或继承自 RichParallelSourceFunction 的类,它定义了如何从外部系统(如 Kafka、文件系统、数据库等)读取数据。
对于常见的外部数据源,Flink 提供了各种预定义的连接器和数据源函数,可以直接使用它们,而无需自己实现 SourceFunction。例如:
- Kafka: 使用 FlinkKafkaConsumer
- Files: 使用 FileSource 或 StreamExecutionEnvironment.readFile()
- JDBC: 使用 JdbcInputFormat 或第三方库如 flink-connector-jdbc
算子操作
算子(Operator)是数据处理的核心构建块。它们定义了如何转换或处理数据流(DataStream)或数据集(DataSet)。Flink 提供了丰富的算子库来支持各种数据处理任务。以下是一些常见的 Flink 算子操作:
- 转换(Transformation)算子
- map:对每个元素应用一个函数,并返回一个新的元素。
- flatMap:对每个元素应用一个函数,该函数可以返回任意数量的元素。
- filter:过滤出满足特定条件的元素。
- keyBy:按一个或多个键对流进行分区,以便后续可以进行有状态的操作(如聚合)。
- reduce:在具有相同键的分组数据上应用一个聚合函数。
- sum、min、max 等:针对特定数据类型的内置聚合函数。
- 连接(Join)和联合(Co-operation)算子
- timeWindowAll、timeWindow:在时间窗口内对元素进行聚合。
- intervalJoin:基于时间间隔的连接操作。
- connect:连接两个流以进行联合操作,如 coMap、coFlatMap 等。
- union:将两个或多个流合并为一个流。
- 窗口(Window)算子
- tumblingWindow:滚动窗口,窗口之间没有重叠。
- slidingWindow:滑动窗口,窗口之间可以重叠。
- sessionWindow:会话窗口,基于元素之间的时间间隔动态创建窗口。
- 状态和容错
- process:一个低级的算子,允许访问元素的时间戳和状态。
- checkpointing:用于在 Flink 作业中启用容错和状态一致性。
- 侧边输出(Side Outputs)
- 在某些算子中,可以定义侧边输出来处理不符合主逻辑的异常或特殊情况的元素。
- 异步 I/O 操作
- asyncFunction:允许执行异步操作(如数据库查询)而不阻塞 Flink 的主数据流。
- 广播(Broadcast)和重分区(Redistribute)
- broadcast:将数据发送到所有并行子任务。
- rebalance、rescale、shuffle:用于改变流中的元素分布。
- 迭代(Iteration)
- Flink 支持迭代处理,允许重复处理数据直到满足某个条件。
MongoSink
- MongoSink implements Sink
public SinkWriter<IN> createWriter(Sink.InitContext context) {return new MongoWriter(this.connectionOptions, this.writeOptions, this.writeOptions.getDeliveryGuarantee() == DeliveryGuarantee.AT_LEAST_ONCE, context, this.serializationSchema);}
- MongoWriter implements SinkWriter
- write: 写入数据
- flush: doBulkWrite写入数据。
- close: 关闭链接
- MongoSinkBuilder
- setUri: 设置Mongodb链接
- setDatabase: 设置Database
- setCollection: 设置Collection
- setBatchSize: 为每个批处理请求设置要缓冲的最大操作数。可以通过-1到
禁用批处理。 - setBatchIntervalMs: 设置批处理刷新间隔(以毫秒为单位)。可以通过-1来禁用它。
- setMaxRetries: 设置写入记录失败时的最大重试次数。
- setDeliveryGuarantee: 设置保存保证,默认保存保证为DeliveryGuarantee#AT_LEAST_ONCE
- setSerializationSchema: 设置对每条记录调用的序列化模式,以将其转换为MongoDB批量
要求
MongoSink<WellCastingInfo> sink = MongoSink.<WellCastingInfo>builder().setUri("mongodb://root:123456@127.0.0.1:27017,127.0.0.1:27018,127.0.0.1:27019/admin?replicaSet=rs0&authSource=admin").setDatabase("sjzz").setCollection("wellCastingInfo_back").setMaxRetries(3)
// .setDeliveryGuarantee(DeliveryGuarantee.AT_LEAST_ONCE).setSerializationSchema((input, context) -> new InsertOneModel<>(BsonDocument.parse(JSON.toJSONString(input)))).build();
transformedStream.sinkTo(sink);
Flink 1.12 之前,Sink 算子是通过调用 DataStream 的 addSink 方法来实现的:
stream.addSink(new SinkFunction(...));
从 Flink 1.12 开始,Flink 重构了 Sink 架构:
stream.sinkTo(...)
env.execute(“Mongo Flink Demo”)
env.execute() 是用于启动 Flink 作业(Job)的关键方法。这里的 env 通常是一个 StreamExecutionEnvironment 或 ExecutionEnvironment 的实例,它们分别用于 Flink 的 DataStream API 和 DataSet API。
当创建了一个 Flink 作业,定义了数据源、转换(transformations)和数据接收器(sinks)之后,需要调用 env.execute() 来触发 Flink 运行时(runtime)执行作业。
需要注意的是,一旦调用了 env.execute(),Flink 运行时就会开始执行作业,并且 env.execute() 方法会阻塞,直到作业执行完成或发生错误。如果希望程序在启动 Flink 作业后继续执行其他操作,可以考虑将 Flink 作业提交到远程集群并在本地程序中继续执行其他任务。这通常需要使用 Flink 的集群客户端(ClusterClient)或相应的 REST API 来实现。