Flink SQL -- 概述

1、Flink SQL中的动态表和连续查询
        1、动态表:

                因为Flink是可以做实时的,数据是在不断的变化的,所以动态表指的是Flink中一张实时变换的表,表中会不断的有新的数据。但是这张表并不是真正的物理表。

        2、连续查询:

                连续不断的查询,因为Flink中的数据是实时不断的,所以在SQL查询数据的时候,查询是连续不断的。

2、Flink SQL 的大致流程

        1、首先会将Flink中的流转化成一张动态表,在流上定义一张表,但是在流上定义的一张表内部没有物化。

         在使用SQL的前提就是需要有一张表,在Flink流中定义的定义的一张表,就是将Flink流中的数据给定义一下字段的名称,表的类型,数据类型等一些表该具备的条件,这让能使用SQL查询。

        2、此时就会在这张动态表上会做连续查询,将查询的结果再分装成一个动态表

对于连续查询也是需要维护转状态的,因为每次的查询都会使用到上一次查询的数据,所以查询的表数据(动态表)是存储在状态中的。但是Flink SQL 中的开窗是不需要进行维护状态的。

        3、然后在将生成的动态表转换成一个Flink中的流。

需要注意的是:

                1、首先动态表是一个逻辑概念,不是一张物理表,就类似MySQL中的视图,可以做查询但是不存储数据,因为是流处理,所以当流来一条数据,就处理一条数据,然后将处理的结果返回出去,所以是不存储数据

                2、在查询执行期间不一定物化动态表。

3、更新和追加查询:
        第一种查询,如下图所示:

                当第一条数据进入时,会产生一条数据,此时结果表中产生第一条数据,是属于insert,当流中的第二条数据进入时,因为在结果表中并没有这条数据,所以也是属于insert的操作,当第三条数据进入的时候,此时的结果表中的数据就发生改变,数据并不是在insert,而是在update

        第二种查询,如下图所示: 

                此时在Flink的SQL中做开窗查询,滑动的事件时间查询,此时结果表展示是每个窗口数据,只有insert的操作。

 虽然两种实力查询看起来非常的相似,但是它们在一个重要方面不同:

        第一个查询更新先前输出的结果,即定义结果表的 changelog 流包含 INSERT 和 UPDATE 操作。

        第二个查询只附加到结果表,即结果表的 changelog 流只包含 INSERT 操作。

两者都有其分别的的含义:

       1、 产生一个更新更改的查询通常必须维护更多的状态,因为需要使用到之前的数据

        2、将一个append-only的表转化成流与一个将已更新的表转化成的流是不相同的。

4、查询限制:
        1、状态大小

连续查询在无界流中的查询,通常的计算时间会比较长,随着时间的推移,所需要维护的状态就会越来大,随着时间的推移,就有可能会导致任务失败。

        2、计算更新

比如查询的计算量特别的大,对于这些需要重新计算和更新大量已经输出的结果表,如果随便的添加一行或者更新更新一行数据,那么计算压力会非常的大,有可能会导致任务失败。

5、表到流的转换:

        将动态表转化成一个流或将其写入到外部系统中,对这些更改进行编码。Flink的 Table API 和 SQL 支持三种方式来编码一个动态表的变化:

        1、Append-Only 流(仅追加流):

                指的是连续查询后的结果表中数据是通过insert操作追加的动态表转换成的流。

        2、ReTract 流(撤回流):retract 流包含两种类型的 message: add messages 和 retract messages 。

例如下图的表中显示的,当第一条和第二条数据数据进来的时候,此时的结果是还一条流,当第三条数据进来的时候,由于数据已经存在流中,此时就会产生两条结果,分别进行删除和更新,删除产生一个与存在流中相反的数据,与其抵消,然后再产生一个新的数据。例如图中原先流中的 + Mary 1已经存在,此时就会产生一个 - Mary 1与其抵消,然后在更新一个 + Mary 2发送到流中。

        3、Upsert流

upsert 流包含两种类型的 message: upsert messages 和delete messages。

是将动态中表中的数据写入到流中,当写入到流中的数据相同时,会自动的更新或插入数据。

        

               

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/138490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

王道考研--》顺序表课后习题C语言代码实现(冲刺)

考研是许多计算机科学专业学生追求高学历、寻求更好就业前景的途径。在考研过程中,数据结构是一个非常重要的科目,而代码实现题更是其中的难点之一。在这篇文章中,我们将探讨如何通过实现数据结构代码问题来提升考研成绩。无论您是否有编程经…

C++ 常用方法,刷oj必备(持续更新!!!)

输出结果保留小数点后n位(4位) #include<iostream> #include <iomanip> using namespace std;int main(){double s ;cin >> s ;cout<<fixed << setprecision(4) << s ;return 0; } 类型转换 string 转 int #include <iostream> …

ClickHouse主键索引最佳实践

在本文中&#xff0c;我们将深入研究ClickHouse索引。我们将对此进行详细说明和讨论&#xff1a; ClickHouse的索引与传统的关系数据库有何不同ClickHouse是怎样构建和使用主键稀疏索引的ClickHouse索引的最佳实践 您可以选择在自己的机器上执行本文给出的所有Clickhouse SQL…

RabbitMQ集群

RabbitMQ概述 1.RabbiMQ简介 RabbiMQ是⽤Erang开发的&#xff0c;集群⾮常⽅便&#xff0c;因为Erlang天⽣就是⼀⻔分布式语⾔&#xff0c;但其本身并不⽀持负载均衡。支持高并发&#xff0c;支持可扩展。支持AJAX&#xff0c;持久化&#xff0c;用于在分布式系统中存储转发消…

【CocoaPods安装环境和流程以及各种情况】

CocoaPods 环境HomebrewRubyrbenvRubyGems 和 Bundler安装Ruby管理Ruby更新Ruby替换Ruby镜像方式1方式2 CocoaPods安装CocoaPodsCocoaPods使用安装的一些问题单元测试引用问题 参考的链接 环境 Homebrew $ brew --config *可以发现打印有下面一行&#xff1a; Homebrew Ruby: …

《013.Springboot+vue之旅游信息推荐系统》【前后端分离有开发文档】

《013.Springbootvue之旅游信息推荐系统》【前后端分离&有开发文档】 项目简介 [1]本系统涉及到的技术主要如下&#xff1a; 推荐环境配置&#xff1a;idea jdk1.8 maven MySQL 前后端分离; 后台&#xff1a;SpringBootMybatisMySQL; 前台&#xff1a;Vue; [2]功能模块展…

Python+requests+unittest+excel接口自动化测试框架

一、框架结构&#xff1a; 工程目录 二、Case文件设计 三、基础包 base 3.1 封装get/post请求&#xff08;runmethon.py&#xff09; impimport jsonclass RunMethod:def post_main(self,url,data,headerNone):res Noneif header !None: res requests.post(urlurl,datadata,…

ArcGIS10.8 连接 PostgreSQL 及遇到的两个问题

前提 以前同事用过我的电脑连PostgreSQL&#xff0c;失败了。当时不知道原因&#xff0c;只能使用GeoServer来发布数据了。现在终于搞明白了&#xff0c;原因是ArcGIS10.2版本太老&#xff0c;无法连接PostgreSQL9.4。参考这里 为了适应时代的发展&#xff0c;那我就用新的Ar…

与创新者同行,Apache Doris in 2023

在刚刚过去的 Doris Summit Asia 2023 峰会上&#xff0c;Apache Doris PMC 成员、飞轮科技技术副总裁衣国垒带来了“与创新者同行”的主题演讲&#xff0c;回顾了 Apache Doris 在过去一年所取得的技术突破与社区发展&#xff0c;重新思考了在面对海量数据实时分析上的挑战与机…

代码随想录算法训练营第四十七天丨 动态规划part10

121. 买卖股票的最佳时机 思路 动态规划 动规五部曲分析如下&#xff1a; 确定dp数组&#xff08;dp table&#xff09;以及下标的含义 dp[i][0] 表示第i天持有股票所得最多现金 &#xff0c;这里可能有疑惑&#xff0c;本题中只能买卖一次&#xff0c;持有股票之后哪还有…

js将图片文件转为base64格式

/***图片文件转换成BASE64字符串&#xff0c;异步任务*param {File} file图片文件对象*return {String} BASE64字符串*/ const getBase64 (file: File) > new Promise((resolve: (url: string) > void, reject) > {const reader new FileReader();reader.onload ()…

Install Docker in Linux

Docker官网链接: https://docs.docker.com/ 1.确定Linux版本 新版本的Docker对Linux系统版本有一定的要求。如果Linux的发行版系统是centOS&#xff0c;安装最新版的docker需要centOS 7以上的系统。 在Docker安装帮助页面查看支持的系统版本。 Docker帮助页面:https://docs…

java excel、word、PPT转换成pdf预览

先引入包&#xff1a;[lib下载地址](https://mp.csdn.net/mp_download/manage/download/UpDetailed)Controllerpublic AjaxResult fileToPdf(RequestBody VerifyCode url, HttpServletResponse response, HttpServletRequest request) throws IOException {String fileUrl req…

迷雾系统-人物驱散迷雾

使用linerRender,将人物移动数据动态添加进去&#xff0c;同样是特殊层级让FogCamera渲染 EndCapVertices的数量越多&#xff0c;矩形就变为一个椭圆形的形状&#xff0c;更适合圆形视野探索 当拐点的两个点距离太近&#xff0c;LineRender会发生扭曲&#xff0c;解决方案是在…

【C++】类型转换 | IO流 | 空间配置器

C语言类型转换 C语言总共有两种形式的类型转换&#xff1a;隐式类型转换 和 显示类型转换。 C语言的转换格式虽然很简单&#xff0c;但也存在不少缺陷&#xff1a; 隐式类型转换有些情况下可能会引发意料之外的结果&#xff0c;比如数据精度丢失。显示类型转换的可视性比较差…

移植LVGL到单片机的一个demo简单介绍

简介 背景&#xff1a; 本文使用的是主控IC为stm32f103zet6, 显示IC为ST7735s&#xff0c;它是128*160的像素&#xff0c;色深为RGB565颜色。 官方虽然说LVGL移植平台只需 64kB 闪存和 8kB RAM 就足以满足简单的用户界面。但我移植到stm32f103c8t6&#xff0c;不管怎么修改配…

我干了8年测试,告诉你现在软件测试还能不能找到工作!

观点&#xff1a;如果你还是以前的思维来学习测试&#xff0c;那你肯定是找不到工作&#xff01; 我做测试工作有将近8年的时间&#xff0c;蚂蚁金服做过2年&#xff0c;因为加班太多离职了。目前在一家国企上市公司&#xff0c;一年能拿三四十个左右&#xff0c;对比头部互联…

可视化 | echarts饼图改编

echarts模板来源 &#x1f4da;改编点 &#x1f407;基本样式 去掉legend、label&#xff1a;show: false背景透明&#xff1a;backgroundColor: "transparent"去除功能标签添加载入动态animationEasing: elasticOut, animationDelay: function (idx) {return Mat…

【数据结构】顺序表 | 详细讲解

在计算机中主要有两种基本的存储结构用于存放线性表&#xff1a;顺序存储结构和链式存储结构。本篇文章介绍采用顺序存储的结构实现线性表的存储。 顺序存储定义 线性表的顺序存储结构&#xff0c;指的是一段地址连续的存储单元依次存储链性表的数据元素。 线性表的&#xf…

10-Docker-分布式存储算法

01-哈希取余算法分区 哈希取余分区&#xff08;Hash Modulus Partitioning&#xff09;是一种在分布式计算和数据存储中常用的分区策略&#xff0c;其目的是将数据或计算任务分配到多个节点或服务器上&#xff0c;以实现负载均衡和提高性能。这种分区策略的核心思想是使用哈希…