⭐简单说两句⭐
✨ 正在努力的小叮当~
💖 超级爱分享,分享各种有趣干货!
👩💻 提供:模拟面试 | 简历诊断 | 独家简历模板
🌈 感谢关注,关注了你就是我的超级粉丝啦!
🔒 以下内容仅对你可见~作者:小叮当撩代码,CSDN后端领域新星创作者 |阿里云专家博主
CSDN个人主页:小叮当撩代码
🔎GZH:
哆啦A梦撩代码
🎉欢迎关注🔎点赞👍收藏⭐️留言📝
文章目录
- ❤️时间语义
- 💕时间的分类
- 💛水位线Watermark
- ✅水位线
- 🍏分布式环境下水位线的传播
- 🍊代码实战
- 🌽自定义水位线生成器
- 🌶️周期性水位线生成器(Periodic Generator)
- 🫑断点式水位线生成器(Punctuated Generator)
- 🧃迟到数据处理
- 🫖**设置窗口延迟关闭**
- ☕️**使用侧流接收迟到的数据**
❤️时间语义
💕时间的分类
Flink中,时间通常分为三类
EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间
IngestionTime:摄入时间,是事件/数据到达流处理系统的时间
ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间
💛水位线Watermark
✅水位线
Flink的三种时间语义中,处理时间和摄入时间都可以不用设置Watermark。如果我们要使用事件时间Event Time语义,以下两项配置缺一不可:
- 使用一个时间戳为数据流中每个事件的Event Time赋值
- 生成Watermark
Event Time是每个事件的元数据,如果不设置,Flink并不知道每个事件的发生时间,我们必须要为每个事件的Event Time赋值一个时间戳。
有了Event Time时间戳,我们还必须生成Watermark。Watermark是Flink插入到数据流中的一种特殊的数据结构,它包含一个时间戳,并假设后续不会有小于该时间戳的数据。下图展示了一个乱序数据流,其中方框是单个事件,方框中的数字是其对应的Event Time时间戳,圆圈为Watermark,圆圈中的数字为Watermark对应的时间戳。
一个包含Watermark的乱序数据流
Watermark = 当前最大的事件时间 - 最大允许的延迟时间(或最大允许的乱序度时间)
Watermark 是一个单独计算出来的时间戳
Watermark可以通过改变窗口的触发时机 在 一定程度上解决数据乱序或延迟达到的问题
Watermark >= 窗口结束时间 时 就会触发窗口计算(窗口中得有数据)
延迟或乱序严重的数据还是丢失, 但是可以通过调大最大允许的延迟时间(乱序度) 来解决, 或 使用侧道输出流来单独收集延迟或乱序严重的数据,保证数据不丢失!
🍏分布式环境下水位线的传播
在多并行度下,每个并行有一个水印
比如并行度是6,那么程序中就有6个watermark
分别属于这6个并行度(线程)
那么,触发条件以6个水印中最小的那个为准
平时测试水位线强烈建议将并行度设为1
🍊代码实战
需求
实时模拟生成订单数据,格式为: (订单ID,用户ID,时间戳/事件时间,订单金额)
要求每隔5s,计算5秒内,每个用户的订单总金额
并添加Watermark来解决一定程度上的数据延迟和数据乱序问题。
我们循序渐进先写一版没有Watermark的
代码清单
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;import java.text.SimpleDateFormat;
import java.util.Random;
import java.util.UUID;/*** @author tiancx*/
public class WatermarkDemo {@Data // set get toString@AllArgsConstructor@NoArgsConstructorpublic static class OrderInfo {//格式化的时间private String time;private String orderId;private int uid;private int money;private long timeStamp;}public static class MySource implements SourceFunction<OrderInfo> {boolean flag = true;@Overridepublic void run(SourceFunction.SourceContext ctx) throws Exception {// 源源不断的产生数据Random random = new Random();while (flag) {OrderInfo orderInfo = new OrderInfo();orderInfo.setOrderId(UUID.randomUUID().toString());orderInfo.setUid(random.nextInt(3));orderInfo.setMoney(random.nextInt(101));orderInfo.setTimeStamp(System.currentTimeMillis());long timeStamp = orderInfo.getTimeStamp();//转成yyyy-MM-dd HH:mm:ssString format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);orderInfo.setTime(format);System.out.println("数据:" + orderInfo);ctx.collect(orderInfo);Thread.sleep(1000);// 间隔1s}}// source 停止之前需要干点啥@Overridepublic void cancel() {flag = false;}}public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);//加载数据DataStreamSource<OrderInfo> source = env.addSource(new MySource());//keyby分组KeyedStream<OrderInfo, Integer> keyBy = source.keyBy(OrderInfo::getUid);//开窗计算(滚动窗口)SingleOutputStreamOperator<OrderInfo> sum = keyBy.window(TumblingProcessingTimeWindows.of(Time.seconds(5))).sum("money");sum.print();env.execute();}}
我们再写一版有水位线的
代码清单
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.commons.lang.time.DateFormatUtils;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;import java.text.SimpleDateFormat;
import java.time.Duration;
import java.util.Random;
import java.util.UUID;/*** @author tiancx*/
public class WatermarkDemo {@Data // set get toString@AllArgsConstructor@NoArgsConstructorpublic static class OrderInfo {//格式化的时间private String time;private String orderId;private int uid;private int money;private long timeStamp;}public static class MySource implements SourceFunction<OrderInfo> {boolean flag = true;@Overridepublic void run(SourceFunction.SourceContext ctx) throws Exception {// 源源不断的产生数据Random random = new Random();while (flag) {OrderInfo orderInfo = new OrderInfo();orderInfo.setOrderId(UUID.randomUUID().toString());orderInfo.setUid(random.nextInt(3));orderInfo.setMoney(random.nextInt(101));orderInfo.setTimeStamp(System.currentTimeMillis() - 1000 * 2);long timeStamp = orderInfo.getTimeStamp();//转成yyyy-MM-dd HH:mm:ssString format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);orderInfo.setTime(format);
// System.out.println("数据:" + orderInfo);ctx.collect(orderInfo);Thread.sleep(1000);// 间隔1s}}// source 停止之前需要干点啥@Overridepublic void cancel() {flag = false;}}public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);env.setParallelism(1);//加载数据DataStreamSource<OrderInfo> source = env.addSource(new MySource());// 在转换算子之前,加载数据之后,添加水印// 添加使用event以及watermark进行操作SingleOutputStreamOperator<OrderInfo> watermarks = source.assignTimestampsAndWatermarks(WatermarkStrategy.<OrderInfo>forBoundedOutOfOrderness(Duration.ofSeconds(3)).withTimestampAssigner(new SerializableTimestampAssigner<OrderInfo>() {@Overridepublic long extractTimestamp(OrderInfo element, long recordTimestamp) {System.out.println("数据:" + element + "系统时间:" + recordTimestamp);return element.getTimeStamp();}}));//keyby分组KeyedStream<OrderInfo, Integer> keyBy = watermarks.keyBy(OrderInfo::getUid);//开窗计算(滚动窗口)SingleOutputStreamOperator<String> sum = keyBy.window(TumblingEventTimeWindows.of(Time.seconds(5))).apply(new WindowFunction<OrderInfo, String, Integer, TimeWindow>() {@Overridepublic void apply(Integer key, TimeWindow window, Iterable<OrderInfo> input, Collector<String> out) throws Exception {String startTime = DateFormatUtils.format(window.getStart(), "yyyy-MM-dd HH:mm:ss");String endTime = DateFormatUtils.format(window.getEnd(), "yyyy-MM-dd HH:mm:ss");String waterTime = DateFormatUtils.format(window.maxTimestamp(), "yyyy-MM-dd HH:mm:ss");int sumMoney = 0;for (OrderInfo orderInfo : input) {sumMoney += orderInfo.getMoney();}out.collect("uid=" + key + ",starttime=" + startTime + ",endTime=" + endTime + ",totalMoney=" + sumMoney);}});sum.print("窗口计算:");env.execute();}
我们看下运行结果
🌽自定义水位线生成器
我们上面使用的是Flink帮我们内置的
我们还可以使用自定义水位线生成器
🌶️周期性水位线生成器(Periodic Generator)
假如我们想周期性地生成Watermark,这个周期是可以设置的,默认情况下是每200毫秒生成一个Watermark,或者说Flink每200毫秒调用一次生成Watermark的方法。我们可以在执行环境中设置这个周期:
env.getConfig.setAutoWatermarkInterval(1000L)
使用方式
DataStream<MyType> stream = ...DataStream<MyType> withTimestampsAndWatermarks = stream.assignTimestampsAndWatermarks(WatermarkStrategy.forGenerator(...).withTimestampAssigner(...));
代码清单
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.commons.lang.time.DateFormatUtils;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.*;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;import java.text.SimpleDateFormat;
import java.util.Random;
import java.util.UUID;/*** @author tiancx*/
public class WatermarkDemo {@Data // set get toString@AllArgsConstructor@NoArgsConstructorpublic static class OrderInfo {//格式化的时间private String time;private String orderId;private int uid;private int money;private long timeStamp;}public static class MySource implements SourceFunction<OrderInfo> {boolean flag = true;@Overridepublic void run(SourceFunction.SourceContext ctx) throws Exception {// 源源不断的产生数据Random random = new Random();while (flag) {OrderInfo orderInfo = new OrderInfo();orderInfo.setOrderId(UUID.randomUUID().toString());orderInfo.setUid(random.nextInt(3));orderInfo.setMoney(random.nextInt(101));orderInfo.setTimeStamp(System.currentTimeMillis() - 1000 * 2);long timeStamp = orderInfo.getTimeStamp();//转成yyyy-MM-dd HH:mm:ssString format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);orderInfo.setTime(format);
// System.out.println("数据:" + orderInfo);ctx.collect(orderInfo);Thread.sleep(1000);// 间隔1s}}// source 停止之前需要干点啥@Overridepublic void cancel() {flag = false;}}public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);env.setParallelism(1);//加载数据DataStreamSource<OrderInfo> source = env.addSource(new MySource());// 在转换算子之前,加载数据之后,添加水印// 添加使用event以及watermark进行操作SingleOutputStreamOperator<OrderInfo> watermarks = source.assignTimestampsAndWatermarks(WatermarkStrategy.forGenerator(x -> new MyPeriodicGenerator()).withTimestampAssigner(new SerializableTimestampAssigner<OrderInfo>() {@Overridepublic long extractTimestamp(OrderInfo element, long recordTimestamp) {System.out.println("数据:" + element + "系统时间:" + recordTimestamp);return element.getTimeStamp();}}));//keyby分组KeyedStream<OrderInfo, Integer> keyBy = watermarks.keyBy(OrderInfo::getUid);//开窗计算(滚动窗口)SingleOutputStreamOperator<String> sum = keyBy.window(TumblingEventTimeWindows.of(Time.seconds(5))).apply(new WindowFunction<OrderInfo, String, Integer, TimeWindow>() {@Overridepublic void apply(Integer key, TimeWindow window, Iterable<OrderInfo> input, Collector<String> out) throws Exception {String startTime = DateFormatUtils.format(window.getStart(), "yyyy-MM-dd HH:mm:ss");String endTime = DateFormatUtils.format(window.getEnd(), "yyyy-MM-dd HH:mm:ss");String waterTime = DateFormatUtils.format(window.maxTimestamp(), "yyyy-MM-dd HH:mm:ss");int sumMoney = 0;for (OrderInfo orderInfo : input) {sumMoney += orderInfo.getMoney();}out.collect("uid=" + key + ",starttime=" + startTime + ",endTime=" + endTime + ",totalMoney=" + sumMoney);}});sum.print("窗口计算:");env.execute();}public static class MyPeriodicGenerator implements WatermarkGenerator<OrderInfo> {private long maxOutOfOrderness = 3000; // 3 secondsprivate long currentMaxTimestamp;@Overridepublic void onEvent(OrderInfo event, long eventTimestamp, WatermarkOutput output) {// 更新currentMaxTimestamp为当前遇到的最大值currentMaxTimestamp = Math.max(currentMaxTimestamp, eventTimestamp);}@Overridepublic void onPeriodicEmit(WatermarkOutput output) {// Watermark比currentMaxTimestamp最大值慢3秒output.emitWatermark(new Watermark(currentMaxTimestamp - maxOutOfOrderness));}}}
🫑断点式水位线生成器(Punctuated Generator)
断点式生成器会不停地检测 onEvent()中的事件,当发现带有水位线信息的事件时,就立
即发出水位线。我们把发射水位线的逻辑写在 onEvent 方法当中即可。
🧃迟到数据处理
waterMark和Window机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据eventTime进行业务处理,对于延迟的数据Flink也有自己的解决办法:
主要的办法是给定一个允许延迟的时间,在该时间范围内仍可以接受处理延迟数据
设置允许延迟的时间是通过allowedLateness(lateness: Time)设置
保存延迟数据则是通过sideOutputLateData(outputTag: OutputTag[T])保存
获取延迟数据是通过DataStream.getSideOutput(tag: OutputTag[X])获取
🫖设置窗口延迟关闭
Flink 的窗口,也允许迟到数据。当触发了窗口计算后,会先计算当前的结果,但是此时并不会关闭窗口。
以后每来一条迟到数据,就触发一次这条数据所在窗口计算(增量计算)。直到wartermark 超过了窗口结束时间+推迟时间,此时窗口会真正关闭。
.window(TumblingEventTimeWindows.of(Time.seconds(5)))
.allowedLateness(Time.seconds(3))
【Tips】: 延迟关闭只能用到event time上
☕️使用侧流接收迟到的数据
侧输出机制:可以将错过水印又错过allowedLateness允许的时间的数据,单独的存放到一个DataStream中,然后开发人员可以自定逻辑对这些超级迟到数据进行处理。
处理主要使用两个方式:
对窗口对象调用sideOutputLateData(OutputTag outputTag)方法,将数据存储到一个地方
对DataStream对象调用getSideOutput(OutputTag outputTag)方法,取出这些被单独处理的数据的DataStream
.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
.allowedLateness(Time.seconds(3))
.sideOutputLateData(lateWS)
【都看到这了,点点赞点点关注呗,爱你们】😚😚
💬
✨ 正在努力的小叮当~
💖 超级爱分享,分享各种有趣干货!
👩💻 提供:模拟面试 | 简历诊断 | 独家简历模板
🌈 感谢关注,关注了你就是我的超级粉丝啦!
🔒 以下内容仅对你可见~
作者:小叮当撩代码,CSDN后端领域新星创作者 |阿里云专家博主
CSDN个人主页:小叮当撩代码
🔎GZH:哆啦A梦撩代码
🎉欢迎关注🔎点赞👍收藏⭐️留言📝