【理论知识:Window Aggregation】flink 窗口聚合功能概述:两种窗口聚合模式的使用例子、功能说明

文章目录

  • 一. Windowing TVFs
    • 1. 三种类型聚合的例子
    • 2. GROUPING SETS子句语法 ing
      • 2.1.ROLLUP
      • 2.2. CUBE
    • 3. Selecting Group Window Start and End Timestamps
    • 4. 级联窗口聚合(Cascading Window Aggregation)
  • 二. Group Window Aggregation
    • 1. Group Window Functions
    • 2. 时间属性的声明
    • 3. Selecting Group Window Start and End Timestamps
  • 三. 小结

本文描述的是flink1.16.1版本下窗口聚合的语法

窗口聚合定义在GROUP BY子句中定义,子句中包含TVF关系的window_start, window_end字段。
语法如下:

SELECT ...
FROM <windowed_table> -- relation applied windowing TVF
GROUP BY window_start, window_end, ...

 

Unlike other aggregations on continuous tables, window aggregation do not emit intermediate results but only a final result, the total aggregation at the end of the window. Moreover, window aggregations purge all intermediate state when no longer needed.

窗口聚合不产生中间结果,只产生最终结果。此外,当不再需要中间状态时,窗口聚合会清除所有的中间状态。

 

一. Windowing TVFs

Flink supports TUMBLE, HOP and CUMULATE types of window aggregations. In streaming mode, the time attribute field of a window table-valued function must be on either event or processing time attributes. See Windowing TVF for more windowing functions information. In batch mode, the time attribute field of a window table-valued function must be an attribute of type TIMESTAMP or TIMESTAMP_LTZ.

flink支持滚动(TUMBLE)、HOP、累加(CUMULATE)类型的窗口。流模式下,窗口表值函数的时间列的属性必须是事件时间或处理时间。

批模式下,窗口表值函数的时间列的属性必须是TIMESTAMP或TIMESTAMP_LTZ。

 

1. 三种类型聚合的例子

如下表,展示了表的schema和表的数据,其中表中必须有时间属性的字段:

Flink SQL> desc Bid;
+-------------+------------------------+------+-----+--------+---------------------------------+
|        name |                   type | null | key | extras |                       watermark |
+-------------+------------------------+------+-----+--------+---------------------------------+
|     bidtime | TIMESTAMP(3) *ROWTIME* | true |     |        | `bidtime` - INTERVAL '1' SECOND |
|       price |         DECIMAL(10, 2) | true |     |        |                                 |
|        item |                 STRING | true |     |        |                                 |
| supplier_id |                 STRING | true |     |        |                                 |
+-------------+------------------------+------+-----+--------+---------------------------------+SELECT * FROM Bid;
+------------------+-------+------+-------------+
|          bidtime | price | item | supplier_id |
+------------------+-------+------+-------------+
| 2020-04-15 08:05 | 4.00  | C    | supplier1   |
| 2020-04-15 08:07 | 2.00  | A    | supplier1   |
| 2020-04-15 08:09 | 5.00  | D    | supplier2   |
| 2020-04-15 08:11 | 3.00  | B    | supplier2   |
| 2020-04-15 08:13 | 1.00  | E    | supplier1   |
| 2020-04-15 08:17 | 6.00  | F    | supplier2   

滚动窗口聚合例子:

SELECT window_start, window_end, SUM(price)FROM TABLE(TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '10' MINUTES))GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
+------------------+------------------+-------+

滚动窗口聚合例子:

 SELECT window_start, window_end, SUM(price)FROM TABLE(HOP(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES, INTERVAL '10' MINUTES))GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:05 | 2020-04-15 08:15 | 15.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
| 2020-04-15 08:15 | 2020-04-15 08:25 | 6.00  |
+------------------+------------------+-------+

聚合窗口例子:

SELECT window_start, window_end, SUM(price)FROM TABLE(CUMULATE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '2' MINUTES, INTERVAL '10' MINUTES))GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:06 | 4.00  |
| 2020-04-15 08:00 | 2020-04-15 08:08 | 6.00  |
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:10 | 2020-04-15 08:12 | 3.00  |
| 2020-04-15 08:10 | 2020-04-15 08:14 | 4.00  |
| 2020-04-15 08:10 | 2020-04-15 08:16 | 4.00  |
| 2020-04-15 08:10 | 2020-04-15 08:18 | 10.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
+------------------+------------------+-------+

注意:为了更好的理解窗口行为,这里简化了时间戳的显示,不显示后面的零,例如,类型为timestamp(3),在Flink SQL Client中,2020-04-15 08:05应该显示为2020-04-15 08:05:00.000。

 

2. GROUPING SETS子句语法 ing

窗口聚合也支持GROUPING SETS语法。

GROUPING SETS提供了更为复杂的分组操作。行按照GROUPING SETS单独分组,并为每个组计算聚合,就像简单的group by子句一样。
具有GROUPING SETS的窗口聚合要求window_start和window_end列都必须在GROUP BY子句中,但不在GROUPING SETS子句中。

 SELECT window_start, window_end, supplier_id, SUM(price) as priceFROM TABLE(TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '10' MINUTES))GROUP BY window_start, window_end, GROUPING SETS ((supplier_id), ());
+------------------+------------------+-------------+-------+
|     window_start |       window_end | supplier_id | price |
+------------------+------------------+-------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 |      (NULL) | 11.00 |
| 2020-04-15 08:00 | 2020-04-15 08:10 |   supplier2 |  5.00 |
| 2020-04-15 08:00 | 2020-04-15 08:10 |   supplier1 |  6.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 |      (NULL) | 10.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 |   supplier2 |  9.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 |   supplier1 |  1.00 |
+------------------+------------------+-------------+-------+

在 GROUPING SETS中可以设置零个或多个列,或表达式,理解方式和GROUP BY子句中使用的方式相同。
空分组意味着将所有行聚合为单个组,即使没有输入行也输出该组。ing

References to the grouping columns or expressions are replaced by null values in result rows for grouping sets in which those columns do not appear.

对于没有出现这些列的分组集,结果行中对分组列或表达式的引用将被替换为null值。ing

 

2.1.ROLLUP

2.2. CUBE

ing
 

3. Selecting Group Window Start and End Timestamps

可以直接使用window_start,window_end字段,放到select语句中
 

4. 级联窗口聚合(Cascading Window Aggregation)

The window_start and window_end columns are regular timestamp columns, not time attributes. Thus they can’t be used as time attributes in subsequent time-based operations. In order to propagate time attributes, you need to additionally add window_time column into GROUP BY clause. The window_time is the third column produced by Windowing TVFs which is a time attribute of the assigned window. Adding window_time into GROUP BY clause makes window_time also to be group key that can be selected. Then following queries can use this column for subsequent time-based operations, such as cascading window aggregations and Window TopN.

window_start和window_end列是常规的时间戳列,而不是时间属性。因此,它们不能在后续的基于时间的操作中用作时间属性。为了向下传递时间属性,需要在group by子句中添加window_time列。

window_time是窗口tvf生成的第三列,它是所分配窗口的时间属性。将window_time添加到GROUP BY子句中,使window_time成为可以被选择(select 句子中)的组键。之后,下面的查询可以使用该列进行后续的基于时间的操作,例如级联窗口聚合和window TopN。

-- 滚动5分钟对于每一个supplier_id列值
CREATE VIEW window1 AS-- 注意:window_start,window_end 在select子句中可选。
--However, if they appear in the clause, they need to be aliased to prevent name conflicting with the window start and window end of the outer Window TVF.
-- 如果出现在select子句中,两个列需要设置别名,为了防止与其他window TVF的这两个列重名。SELECT window_start as window_5mintumble_start, window_end as window_5mintumble_end, window_time as rowtime, SUM(price) as partial_priceFROM TABLE(TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES))GROUP BY supplier_id, window_start, window_end, window_time;-- 第一个窗口滚动10分钟ing
SELECT window_start, window_end, SUM(partial_price) as total_priceFROM TABLE(-- rowtime:这里使用了上一个句子声明的时间列TUMBLE(TABLE window1, DESCRIPTOR(rowtime), INTERVAL '10' MINUTES))GROUP BY window_start, window_end;

 

二. Group Window Aggregation

注意:

Warning: Group Window Aggregation is deprecated. It’s encouraged to use Window TVF Aggregation which is more powerful and effective.
Compared to Group Window Aggregation, Window TVF Aggregation have many advantages, including:
Have all performance optimizations mentioned in Performance Tuning.
Support standard GROUPING SETS syntax.
Can apply Window TopN after window aggregation result.
and so on.

分组聚合已经不推荐使用。推荐使用window的TVF聚合,相比于分组窗口聚合,窗口TVF聚合有以下优势:

  • 支持提到的所有性能优化
  • 支持GROUPING SETS
  • 窗口聚合后可以实现window TopN

组窗口聚合在Group BY子句中定义。与使用常规GROUP BY子句的查询一样,在各组内(window下)计算算出单个结果集。
 

1. Group Window Functions

TUMBLE(time_attr, interval) 
  • 用于定义一个滚动窗口。
  • 滚动时间窗口将行(数据)分配到固定非重叠的连续窗口
  • 滚动时间窗口可以被定义在事件时间(流模式+批模式)和处理时间(流模式)
HOP(time_attr, interval, interval)

Defines a hopping time window (called sliding window in the Table API). A hopping time window has a fixed duration (second interval parameter) and hops by a specified hop interval (first interval parameter). If the hop interval is smaller than the window size, hopping windows are overlapping. Thus, rows can be assigned to multiple windows. For example, a hopping window of 15 minutes size and 5 minute hop interval assigns each row to 3 different windows of 15 minute size, which are evaluated in an interval of 5 minutes. Hopping windows can be defined on event-time (stream + batch) or processing-time (stream).

SESSION(time_attr, interval)

Defines a session time window. Session time windows do not have a fixed duration but their bounds are defined by a time interval of inactivity, i.e., a session window is closed if no event appears for a defined gap period. For example a session window with a 30 minute gap starts when a row is observed after 30 minutes inactivity (otherwise the row would be added to an existing window) and is closed if no row is added within 30 minutes. Session windows can work on event-time (stream + batch) or processing-time (stream).

 

2. 时间属性的声明

流模式下,time_attr参数必须引用一个有效的时间属性,该字段已经明确了处理时间或事件时间。那么,如何声明时间属性,跳转如下官网:

how to define time attributes.

 

3. Selecting Group Window Start and End Timestamps

start timestampsend timestamps以及time attribute字段可以通过如下辅助函数实现输出(用于select语句中):

1.返回窗口的下界(时间戳)

TUMBLE_START(time_attr, interval)
HOP_START(time_attr, interval, interval)
SESSION_START(time_attr, interval)

 
2.返回独占上界的时间戳

TUMBLE_END(time_attr, interval)
HOP_END(time_attr, interval, interval)
SESSION_END(time_attr, interval)

此时间戳不能用于后续 rowtime attribute(基于时间)的操作例如:interval joins 、 group window 、 over window aggregations

 

3.返回包含上界的时间戳。

TUMBLE_ROWTIME(time_attr, interval)
HOP_ROWTIME(time_attr, interval, interval)
SESSION_ROWTIME(time_attr, interval)

此时间戳可以用于后续 rowtime attribute(基于时间)的操作例如:interval joins 、 group window 、 over window aggregations

 
4.返回proctime(处理时间)属性

TUMBLE_PROCTIME(time_attr, interval)
HOP_PROCTIME(time_attr, interval, interval)
SESSION_PROCTIME(time_attr, interval)

此时间戳可以用于后续 rowtime attribute(基于时间)的操作例如:interval joins 、 group window 、 over window aggregations

辅助函数的传参,必须和group by子句中保持一致,以下例子:

CREATE TABLE Orders (user       BIGINT,product    STRING,amount     INT,order_time TIMESTAMP(3),-- 声明时间属性WATERMARK FOR order_time AS order_time - INTERVAL '1' MINUTE
) WITH (...);SELECTuser,TUMBLE_START(order_time, INTERVAL '1' DAY) AS wStart,SUM(amount) FROM Orders
GROUP BYTUMBLE(order_time, INTERVAL '1' DAY),user

 

三. 小结

  1. flink1.16提供了两种窗口创建的模式,官网建议使用Windowing TVFs的方式去使用窗口功能
  2. 本文提供了两种窗口模式使用的例子
  3. Windowing TVFs提供了GROUPING SETS的能力,提供了更为复杂的分组操作; 级联窗口聚合模式实现时间属性的向下传递
  4. 流模式下,必须要声明时间字段,并声明为处理时间还是事件时间
  5. 本文讲了两种窗口模式下,select语句的Group Window Start and End Timestamps字段怎么获取。

 
参考:

https://nightlies.apache.org/flink/flink-docs-release-1.16/zh/docs/dev/table/sql/queries/window-agg/#group-window-aggregation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/122276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA新建maven项目,使用mybatis操作数据库完整过程

IDEA新建maven项目&#xff0c;使用mybatis操作数据库完整过程 一、IDEA新建maven项目二、配置mybatis三、创建表对应实体类四、创建mapper接口五、使用mybatis操作数据库 前提&#xff1a; 这个教程是在maven项目中使用mybatis进行数据库操作&#xff0c;不是在spring boot项目…

力扣 88. 合并两个有序数组

目录 1.解题思路2.代码实现 1.解题思路 另开辟一个大小为mn的数组再利用双指针判断两个指针的大小&#xff0c;将小值赋给数组上并给该数组的下标加一和该指针加一&#xff0c;其次&#xff0c;要判断两个数组是否已经被拷贝完&#xff0c;如果其中一个已经到头&#xff0c;那…

牛客小白月赛80 D一种因子游戏

D一种因子游戏 思路&#xff1a;我们考虑&#xff0c;对于A数组中的每个数&#xff0c;我们考虑B数组中是否存在某个对应的数字能和其匹配&#xff0c;即 g c d gcd gcd等于1。由此想到二分图最大匹配&#xff0c;算出最大匹配数然后判断即可。 #include<bits/stdc.h>u…

接口自动化测试工具,Postman使用详解

一、概念 1、Postman是一款功能强大的网页调试与发送网页HTTP请求的Chrome插件&#xff0c;Postman分为Postman native app和Postman Chrome app两个版本。目前Chrome app已经停止维护&#xff0c;官方也不推荐使用该版本。 2、官网下载地址&#xff1a;http://www.getpostman…

071:mapboxGL上传含shp的zip文件,在map上解析显示图形

第071个 点击查看专栏目录 本示例是介绍演示如何在vue+mapbox中上传含有shp文件的zip,在地图上显示图形。这里先通过上传解压解析,转换生成geojson文件,然后在地图上渲染图形。 直接复制下面的 vue+mapbox源代码,操作2分钟即可运行实现效果 文章目录 示例效果所用的zip文…

uniapp把文件中的内复制到另一个文件中

使用的是Html 5的plus.io.resolveLocalFileSystemURL方法&#xff0c;文档&#xff1a;HTML5 API Reference var soursePath file:///storage/emulated/0/a/;//用于读取var removePath file:///storage/emulated/0/w/;//用于移除w这个文件夹var targetPath file:///storage/…

nodejs+vue人脸识别考勤管理系统的设计与实现-计算机毕业设计

根据分析&#xff0c;本系统主要有3个角色&#xff1a;管理员、用户、考勤系统。 &#xff08;1&#xff09;管理员&#xff1a;管理员信息的添加、删除、修改和查询&#xff0c;用户信息添加、删除、修改和查询。 &#xff08;2&#xff09;用户&#xff1a;用户的注册和登录&…

AI与Prompt:解锁软件开发团队的魔法咒语,在复杂任务上生成正确率更高的代码

AI与Prompt&#xff1a;解锁软件开发团队的魔法咒语 写在最前面论文&#xff1a;基于ChatGPT的自协作代码生成将团队协作理论应用于代码生成的研究自协作框架原理1、DOL任务分配2、共享黑板协作3、Instance实例化 案例说明简单任务&#xff1a;基本操作&#xff0c;生成的结果1…

c# Json转C#实体

1.Web Api获取 Json数据&#xff1a; { "code": 200, "message": "success", "data": { "Barcode": { "BarcodeNo": "YS5193465232200001", "WorkOrder": "N102304065", "It…

AWS SAP-C02教程11-解决方案

本章中,会根据一些常见场景的解决方案或者AWS的某一方面的总结,带你了解AWS各个组件之间的配合使用、如何在解决方案中选择组件以及如何避开其本身限制实现需求。 目录 1 处理高并发解决方案(Handing Extreme Rates)2 日志管理(AWS Managed Logs)3 部署解决方案(Deploy…

定日镜系统风致振动特性检测系统研究

摘 要 由于国内人民生活水平的提高&#xff0c;科技不断地进步&#xff0c;控制不断地完善&#xff0c;从而促使定日镜成为各种旋转机械行业的主导。随着现代机械朝着高性能、自动化、规模化的革新&#xff0c;定日镜被普遍应用咋各式各样的大型机械和光伏发电上&#xff0c;特…

软考 系统架构设计师系列知识点之设计模式(8)

接前一篇文章&#xff1a;软考 系统架构设计师系列知识点之设计模式&#xff08;7&#xff09; 所属章节&#xff1a; 老版&#xff08;第一版&#xff09;教材 第7章. 设计模式 第2节. 设计模式实例 相关试题 5. 创建型模式支持对象的创建&#xff0c;该模式允许在系统中创…

JAVA实现智能停车场管理系统 开源

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容A. 车主端功能B. 停车工作人员功能C. 系统管理员功能1. 停车位模块2. 车辆模块3. 停车记录模块4. IC卡模块5. IC卡挂失模块 三、界面展示3.1 登录注册3.2 车辆模块3.3 停车位模块3.4 停车数据模块3.5 IC卡档案模块3.6 IC卡挂…

PPT文档图片设计素材资源下载站模板源码/织梦内核(带用户中心+VIP充值系统+安装教程)

源码简介&#xff1a; PPT文档图片设计素材资源下载站模板源码&#xff0c;作为织梦内核素材资源下载站源码&#xff0c;它自带了用户中心和VIP充值系统&#xff0c;也有安装教程。 织梦最新内核开发的模板&#xff0c;该模板属于素材下载、文档下载、图库下载、PPT下载、办公…

Go学习第十三章——Gin入门与路由

Go web框架——Gin入门与路由 1 Gin框架介绍1.1 基础介绍1.2 安装Gin1.3 快速使用 2 路由2.1 基本路由GET请求POST请求 2.2 路由参数2.3 路由分组基本分组带中间件的分组 2.4 重定向 1 Gin框架介绍 github链接&#xff1a;https://github.com/gin-gonic/gin 中文文档&#xf…

【计算机视觉】相机

文章目录 一、原始的相机&#xff1a;针孔相机&#xff08;Pinhole Camera&#xff09;二、针孔相机的数学模型三、真实相机四、透镜的缺陷 我的《计算机视觉》系列参考UC Berkeley的CS180课程&#xff0c;PPT可以在课程主页看到。 成像原理 一、原始的相机&#xff1a;针孔相机…

Conda

Conda 是一个开源的软件包管理系统和环境管理系统&#xff0c;用于安装多个版本的软件包及其依赖关系&#xff0c;并在它们之间轻松切换。它不仅仅是 Python 的包管理器&#xff0c;而是一个通用的包管理器&#xff0c;当初设计时被用来管理任何语言的包。 Conda 的主要功能是…

Spring boot定时任务

目录 前言一、使用 Scheduled 注解二、使用 ScheduledExecutorService三、使用 Spring 的 TaskScheduler四、使用第三方调度框架 前言 在 Spring Boot 中&#xff0c;有多种方法来编写定时任务&#xff0c;以执行周期性或延迟执行的任务。下面是几种常见的方式 一、使用 Sche…

【深度学习】吴恩达课程笔记(一)——深度学习概论、神经网络基础

笔记为自我总结整理的学习笔记&#xff0c;若有错误欢迎指出哟~ 吴恩达课程笔记——深度学习概论、神经网络基础 一、概念区别1.深度学习与机器学习2.深度学习与神经网络 二、什么是神经网络1.分类2.特点3.工作原理4.神经网络示意图5.神经网络进行监督学习6.深度学习的发展 三、…

力扣:143. 重排链表(Python3)

题目&#xff1a; 给定一个单链表 L 的头节点 head &#xff0c;单链表 L 表示为&#xff1a; L0 → L1 → … → Ln - 1 → Ln请将其重新排列后变为&#xff1a; L0 → Ln → L1 → Ln - 1 → L2 → Ln - 2 → … 不能只是单纯的改变节点内部的值&#xff0c;而是需要实际的进…