去掉窗口_Flink 基础——窗口(Window)理论篇

efd5234ca0c182c6d76620e764f3221a.png

窗口是什么

要知道 Flink 面对的是无限的数据流,而批处理只是流处理的一个特例,然而我们的计算只能基于一个有限的集合,这个时候窗口正好定义了这其中的概念。因此可以说了解窗口机制是学习 Flink 的基础也是关键。

总结来说,窗口将一个无限数据流拆分成有限的数据集合(以下简称为“桶”),并使得我们很方便地在上面做一些操作。那么显然这里带来两个问题:

  1. 如何将数据拆分到桶
  2. 后续的操作何时发生

在 Flink 的实现中,会有具体的策略决定何时创建一个桶,数据该分配到哪个桶,而后续的操作是基于条件触发的,当然这个条件是可以自定义的,Flink 内部也有默认的实现,一旦条件达到,后续的操作就会发生,将桶内的数据发送给操作函数。这便是窗口在整个过程中起到的作用。

围绕窗口有哪些概念需要掌握

窗口类型

接着上面的讨论,Flink 会有具体的策略决定何时创建桶以及数据该分配到哪个桶,那么有哪些策略呢?这些策略在 Flink 中的区分就是窗口的类型:

  • 滚动窗口
  • 滑动窗口
  • 会话窗口

这些窗口具体什么时候会用到呢?比如我们要计算每隔5分钟的车流量,那就需要滚动窗口,每5分钟累计一次。但是如果希望每分钟计算一下最近5分钟的车流量呢,那就需要滑动窗口,滑动的大小为1分钟。而如果要统计用户在一次网页交互的会话内点击页面的次数,那么这个时候就需要用会话窗口了。当然了,如果这几个内置的窗口不够用的话,还可以自定义。

触发器(Trigger)

桶已经创建好了,数据也已经分配到具体的桶了,那么何时触发后续的操作函数呢?这个在 Flink 由触发器来规定。触发器会决定一个窗口何时被计算或清除(即清除窗口中的元素)。因而每个窗口都会有一个触发器。再接着举上面的例子说吧,如果要5分钟统计一次的话,那么显然需要计时,每隔5分钟就触发一次。Flink 内部已经对常用的窗口实现了默认的触发器,如果不满足的话也可以使用相应的 API 来自定义。

驱逐者(Evitor)

驱逐者其实有点像个过滤器,用于在上面的触发器触发之后,去掉窗口中的某些元素。对于窗口而言,驱逐者是个可选项。在 Flink 内部提供的滑动计数窗口的实现中,就用到了驱逐者,用来去掉多余的数据。

允许延迟

在实际的数据产生到处理的过程中,出现数据的延迟再正常不过了,那么我们怎么让迟到的数据加入到窗口中呢?在 Flink 中提供了允许延迟的 API,只要数据还没有到窗口的最后时间加上延迟时间,那么依然会被加入到窗口中,而且有可能再次触发后续的操作函数,这取决于具体的触发器的实现。

小结

对于窗口相关的理论知识,掌握这些基本就够了,接下来需要从 API 的使用去了解了,后续文章就开始相关 API 的介绍。

本文首发于公众号“数据Man”,欢迎关注!

0d6943903787af9f70d33784fa662093.png
数据Man

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开题报告方案论证_观点讨论研究方案、立项申报书、开题报告的联系和区别

点击蓝字获取更多精彩信息观点讨论┃研究方案、立项申报书、开题报告的联系和区别第一部分 开题报告与立项申报书的区别开题报告与立项申报书看似类似(一级目录大致相同),但相比之下,重点和详略有明显变化,主要有以下实际区别:1…

resnet50能用cpu跑吗_2020年12月1日更新。性价比最高入门游戏CPU--intel 10100F装机配置推荐。...

牙膏厂终于发布了入门级性价比最高的十代CPU,inte i3 10100F。10100F采用LGA1200芯片接口,四核八线程,主频3.6GHz,睿频可以到4.3Ghz。TDP功耗65w,支持双通道DDR4 2666内存。可以搭配H410或B460主板。首发价格为699元,性价比非常的…

匹配正则_程序员入门基础:python正则表达式贪婪匹配和非贪婪匹配

此文为python正则表达式的高阶入门,正则基础入门请参考程序员入门基础:python的正则表达式。一、贪婪匹配和非贪婪匹配举例说明概念:print(非贪婪匹配,re.search(el?, hello world,re.I))print(贪婪匹配,re.search(el, hello world,re.I))贪…

python数据结构与算法分析_数据结构和算法分析

问题引出假设有一道题目:有一组N个数而要确定其中第k个最大者,我们称之为选择问题,那么这个程序如何编写?最直观地,至少有两种思路:1、将N个数读入一个数组中,再通过某种简单的算法,…

单片机与树莓派蓝牙连接_用树莓派玩转蓝牙

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁转载。蓝牙是一个使用广泛的无线通信协议,这两年又随着物联网概念进一步推广。我将介绍蓝牙协议,特别是低功耗蓝牙,并用树莓派来实践。树莓派3中内置了蓝牙模块。树…

禁止更改计算机名_计算机改名、加域脚本集合

windows计算机改名、改密码、设置ip、加域脚本集合今天和大家分享一下,如何将前面的改名加域整合在一起,根据选择执行对应的命令。新建txt文档,输入一下代码,另存为“自动加域脚本.bat”。echo offcolor 1Fmode con cols100 lines…

加载文件流_jvm类加载的过程

一个类从加载到虚拟机到使用结束从虚拟机卸载包括了加载、验证、准备、解析、初始化、使用、卸载,即为一个类的生命周期下面来看一下类加载的过程,即加载、验证、准备、解析、初始化5个阶段都做了什么事:阶段1:加载加载阶段虚拟机…

php 消息队列_消息队列篇——windows本地搭建RabbitMQ Server

前言:最近的PHP项目中有使用AMQP,解耦一些业务性的功能模块。因为工作使用的是线上Linux搭建,为了方便测试所以我决定本地搭建一个MQ服务。RabbitMQ简介:MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法。…

小程序底部弹窗css_微信小程序之animation底部弹窗动画(两种方法)

简单分享一下常用的底部弹窗层或下拉框弹出层(代码需要修改)的内容弹窗的动画效果,这里分享的是点击按钮后底部弹窗的动画效果。第一种方式是动态设置显示区域的高度,第二种方法是动态设置显示区域的移动的位置(使用到 transform:translateY )&#xff1…

js cookie 存储checkbox_浏览器数据存储方式总结,网友:“精辟”!

今天主要来讲下前端的数据存储,说起数据存储,大家肯定第一时间想起cookie,localstorage,sessionstorage,而其实还有userData和IndexedDB这两种数据存储,接下来将对它们进行一个比较详细的总结一、为什么要进…

mysql获取一个表的数据作为值插入_请问如何在mysql中得到一个即将插入数据表中的那条数据的id值(id自增长)?...

我们在写数据库程序的时候,经常会需要获取某个表中的最大序号数,一般情况下获取刚插入的数据的id,使用select max(id) from table 是可以的。但在多线程情况下,就不行了。下面介绍三种方法(1) getGeneratedKeys()方法:程序片断:Connection conn ;Serial…

navigator工具_Javascript常用工具类

就算现今是以框架为主流的前端,依然离不开JS,因为他是框架底层的一部分。我先上传代码截图(截图显示会更好看点),截图后面有带源码(源码方便大家复制)。/** * 文件描述:js项目开发中的常用方法工具 * *//** * 全局常量 */var DEFAULT_LINE_KE…

tail将输出的日志放到文件中_如何将Spring Boot应用中日志输出格式改为JSON?

作者:DEV出自:解道JDON原文:jdon.com/55006今天,我们有了一类称为日志聚合系统的应用程序。当我们拥有大量微服务并且我们希望跨微服务跟踪日志时,日志聚合很有用。传统的Java应用程序日志如下所示:2020-09…

造轮子是什么意思_程序员为什么热衷于造轮子,升职加薪吗?

作者:小傅哥博客: https://bugstack.cn-沉淀、分享、成长,让自己和他人都能有所收获!一、前言哪个架构师没造过轮子?你想过这样一件事吗? 是先具备能力在安排职位,还是先安排职位在学习&#xf…

阿里云 服务器 系统 php mysql_阿里云服务器配环境(Ubuntu 16.04+Nginx+MySQL+PHP)并部署hexo博客...

购买服务器阿里云向学生出售优惠价格的服务器,一个月只需9.5块,具体配置看图吧更新Ubuntu源,安装Git123sudo apt updatesudo apt upgradesudo apt-get install git配置Nginx安装Nginxsudo apt install nginx开启Nginx服务sudo service nginx …

python web开发项目 源码_Python + Flask 项目开发实践系列七

对于 Python Flask 这种灵活的web开发框架,在前面的六个系列文章中详细的进行了说明,主要讲到了页面的首页加载时的页面渲染,增加功能,删除功能,修改功能,查询功能,查询详情功能等一些页面常见…

回调函数 相当于线程_阿里面试题:请简述下 Node 的线程模型

前言如果你有一定的前端基础,比如 HTML、CSS、JavaScript、jQuery;那么,Node.js 能让你以最低的成本快速过渡成为一个全栈工程师(我称这个全栈为伪全栈,我认为的全栈也要精通数据库,不喜勿喷),从而触及后端…

微信小程序 本地mysql_微信小程序系列之使用缓存在本地模拟服务器数据库

微信小程序系列之使用缓存在本地模拟服务器数据库现在将data.js这个文件视作是本地数据库的初始化数据,要做的第一件事就是讲这些初始化数据装进缓存中,以形成数据库的初始化数据整个应用程序的生命周期,类比一下页面的生命周期,在…

jvm垃圾回收机制_JVM 垃圾回收机制之堆的分代回收

JVM垃圾回收机制之堆的分代回收前言前文我们了解了Java的GC机制,对于堆中的对象,JVM采用引用计数和可达性分析两种算法来标记对象是否可以清除,本文中我们还会了解到JVM将对分成了不同的区域,以便于更好的回收对象。堆的分代Java的…

roadhog不是内部或外部命令_git:git 不是内部或外部命令,也不是可运行的程序

出现git 不是内部或外部命令,也不是可运行的程序解决方案:Windows下配置Git1、从git官网下载windows版本的git:http://git-scm.com/downloads或是从该链接下载对应版本:https://github.com/git-for-windows/git/releases/tag/v2.1…