实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么

今天学Flink的关键技术–容错机制,用一些通俗的比喻来讲这个复杂的过程。参考自《离线和实时大数据开发实战》

需要先回顾昨天发的Flink关键概念

检查点(checkpoint)

Flink容错机制的核心是分布式数据流和状态的快照,从而当分布式job由于网络、集群或者任何原因失败时,可以快速从这些分布式快照(检查点checkpoint)中快速恢复,且是轻量级的。

理解思路

Flink容错机制的关键是分组标记栏(barrier)。用河水的例子来简单类比:

  • Storm是一滴一滴地处理数据;
  • SparkStreaming就像水坝一样,一批一批地放水,上一批放的水处理完了,才会放下一批水;
  • Flink的处理方式则更为优雅,它在水中定期地插入barrier,水仍然继续流(所以轻量)只是加了些barrier,如果源头有多个数据流,那么都会同步地增加同样的barrier。

同时在job处理的过程中,为了保证iob失败的时候可以从错误中恢复,Flink还对barrier 进行对齐(align)操作,比如某个operator有多个数据流,那么Flink会等到其多个输入流的同样的barrier 都到了(这就是align的含义),才会将对齐那一刻的状态进行保存,确保出等的时候可以恢复。当然,对齐也是有负面影响的,如果某个源头数据延迟很多,为了对其可能造成任务延迟,对齐是可以根据业务选择关闭的
在这里插入图片描述

详细描述

barrier不会干扰正常数据,数据流分割成两部分,一部分进去当前检查点,一部分进入下一检查点。每个barrier带有检查点ID n,并且之前的数据都进入了这个检查点,检查点中会记录数据的进度信息偏移量分布式job中间的operator会接受这些数据流,当接收到带有检查点n标识的barrier时,会给所有输出流也插入一个标识n的barrier。当sink operator(DAG的终点)接收到所有输入流的barrier n时,确认检查点n 已完成。所有sink都确认检查点n完成,这个检查点才完成。

这个中间的operator,如果有多个输入流,是需要对齐

对齐操作:
  1. 接收到某个输入流的barrier n,就不能继续处理这个输入流后的数据,直到其余流都收到。不然检查点会和下一个混淆
  2. 先不处理barrier n所属的数据流,从这些数据流接收到的数据先放缓冲区
  3. 当从最后一个流提取到barrier n,operator会把等待发送的数据向后传,同时发射检查点n所属的barrier。
    在这里插入图片描述

经过上述步骤,operator恢复所有输入流数据的处理,并优先处理输入缓存中的数据。

保存点(Savepoint)

检查点是由Flink自动管理的,定期创建,发生故障之后自动读取进行恢复,这是一个“自动存盘”的功能;而保存点不会自动创建,必须由用户明确地手动触发保存操作,所以就是“手动存盘”。
场景:

  • 版本管理和归档存储
  • 更新Flink版本
  • 更新应用程序
  • 调整并行度
  • 暂停应用程序

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/887338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos使用docker搭建Graylog日志平台

日志管理系统有很多,比如ELK,Graylog,LokiGrafanaPromtail 适用场景: 1.如果需求复杂,服务器资源不受限制,推荐使用ELK(Logstash Elasticsearch Kibana)方案; 2.如果需求仅是将…

小米xiaomi

文章目录 一、vector和list的区别?二、include 双引号和尖括号的区别?三、set的底层数据结构?四、set和multiset的区别?五、map和unordered_map的区别?六、虚函数和纯虚函数的区别?七、extern C有了解过吗&…

MassTransit中文文档

概念(Concepts) 概述(Overview)消息(Messages)消费者(Consumers)生产者(Producers)异常(Exceptions)测试(Testing)请求(R…

鸿蒙网络编程系列50-仓颉版TCP回声服务器示例

1. TCP服务端简介 TCP服务端是基于TCP协议构建的一种网络服务模式,它为HTTP(超文本传输协议)、SMTP(简单邮件传输协议)等高层协议的应用程序提供了可靠的底层支持。在TCP服务端中,服务器启动后会监听一个或…

DataGrip 连接 Redis、TongRDS

连接 Redis 或 TongRDS 有些旧版本 没有 redis 驱动用不了 1)选择驱动 2)添加连接信息 3)测试连接 4)保存连接 5)使用案例

DevExpress控件 基本使用

DevExpress控件 一、DevExpress简介 1、所有编辑器的公共功能 全部都可以绑定数据; 全部都可以独立使用或用于由 Developer Express 提供的容器控件 (XtraGrid、XtraVerticalGrid、XtraTreeList 和 XtraBars) 内的内置编辑; 全部都使用相同的样式、外…

mybatis学习(一)

声明:该内容来源于动力节点,本人在学习mybatis过程中参考该内容,并自己做了部分笔记,但个人觉得本人做的笔记不如动力节点做的好,故使用动力节点的笔记作为后续mybatis的复习。 一、MyBatis概述 1.1 框架 在文献中看…

C0034.在Ubuntu中安装的Qt路径

Qt安装路径查询 在终端输入qmake -v如上中/usr/lib/x86_64-linux-gnu就是Qt的安装目录;

线程控制方法之wait和sleep的区别

线程控制方法之wait和sleep的区别 wait()和sleep()都是Java线程控制方法,但存在明显区别: 所属与调用:wait()属Object类,需synchronized调用;sleep()属Thread类,可随意调用。锁处理:wait()释放…

ACP科普:风险价值矩阵

风险价值矩阵(Risk-Value Matrix)是一种常用的工具,用于在项目管理中帮助团队识别、评估和优先处理风险。它通过将风险和价值两个因素进行结合,帮助决策者明确哪些风险需要优先关注和处理,从而有效地管理项目的不确定性…

Harbor2.11.1生成自签证和配置HTTPS访问

文章目录 HTTPS的工作流程部署Harbor可参考上一篇文章生成自签证书1.修改/etc/hosts文件2.生成证书a.创建存放证书路径b.创建ca.key密钥c.创建ca.crtd.创建给Harbor服务器使用密钥 yunzhidong.harbor.com.keye.创建给Harbor服务器使用证书签名请求文件 yunzhidong.harbor.com.c…

Spring Boot3远程调用工具RestClient

Spring Boot3.2之后web模块提供了一个新的远程调用工具RestClient,它的使用比RestTemplate方便,开箱即用,不需要单独注入到容器之中,友好的rest风格调用。下面简单的介绍一下该工具的使用。 一、写几个rest风格测试接口 RestCont…

svn 崩溃、 cleanup失败 怎么办

在使用svn的过程中,可能出现整个svn崩溃, 例如cleanup 失败的情况,类似于 这时可以下载本贴资源文件并解压。 或者直接访问网站 SQLite Download Page 进行下载 解压后得到 sqlite3.exe 放到发生问题的svn根目录的.svn路径下 右键呼出pow…

[Leetcode小记] 3233. 统计不是特殊数字的数字数量

代码&#xff1a; 方法一&#xff1a;平凡解法(最直观但时间复杂度最高) class Solution {public int nonSpecialCount(int l, int r) {int resr-l1;//初始不是特殊数字的答案为[l,r]范围内数字总数for(int i(int)Math.ceil(Math.sqrt(l));i<(int)Math.floor(Math.sqrt(r))…

神经网络的初始化

目录 为什么需要初始化&#xff1f; 初始化的常用方法&#xff1a; 是否必须初始化&#xff1f; 初始化神经网络中的权重和偏置是深度学习模型训练中非常重要的一步&#xff0c;虽然在某些情况下不进行初始化也能训练出模型&#xff0c;但正确的初始化方法能够显著提高训练效…

jenkins 2.346.1最后一个支持java8的版本搭建

1.jenkins下载 下载地址&#xff1a;Index of /war-stable/2.346.1 2.部署 创建目标文件夹&#xff0c;移动到指定位置 创建一个启动脚本&#xff0c;deploy.sh #!/bin/bash set -eDATE$(date %Y%m%d%H%M) # 基础路径 BASE_PATH/opt/projects/jenkins # 服务名称。同时约定部…

详解Qt QStorageInfo 存储信息类

文章目录 QStorageInfo 详解前言什么是 QStorageInfo&#xff1f;QStorageInfo 的构造函数和常用成员函数构造函数1. 默认构造函数2. 指定路径构造函数 常用成员函数1. 获取存储设备根路径rootPath 2. 获取总容量bytesTotal 3. 获取可用空间bytesAvailable 4. 获取文件系统类型…

vue2 src_Todolist编辑($nextTick)

main.js //引入Vue import Vue from "vue"; //引入App import App from ./App;//关闭Vue的生产提示 Vue.config.productionTip false;new Vue({el: #app,render: h > h(App),beforeCreate() {//事件总线Vue.prototype.$bus this;} });App.vue <template>…

bash笔记

0 $0 是脚本的名称&#xff0c;$# 是传入的参数数量&#xff0c;$1 是第一个参数&#xff0c;$BOOK_ID 是变量BOOK_ID的内容 1 -echo用于在命令窗口输出信息 -$()&#xff1a;是命令替换的语法。$(...) 会执行括号内的命令&#xff0c;并将其输出捕获为一个字符串&#xff…

package.json中^1.x.x、~1.x.x、1.x.x有什么区别

目录 包版本号的语义化 包版本号的符号 举例 包版本号的语义化 在开始回答这个问题之前&#xff0c;先简单介绍一下包版本号的语义化。 在npm中&#xff0c;包的版本号通常遵循语义化版本规范&#xff08;Semantic Versioning&#xff09;&#xff0c;即采用 major.minor.p…