flink的分组聚合、over聚合、窗口聚合对比

flink的分组聚合、over聚合、窗口聚合对比

news/2025/11/4 2:47:41/文章来源:https://blog.csdn.net/oTianShangDiXia/article/details/136606667

【背景】

flink有几种聚合，使用上是有一些不同，需要加以区分：

分组聚合：group agg

over聚合：over agg

窗口聚合：window agg

省流版：

	触发计算时机	结果流类型	状态大小
分组聚合group agg	每当有新行就输出更新的结果	update流	保持中间结果，所以状态可能无限膨胀
over agg	每当有新行就输出更新的结果,类似一个滑动窗口	append流	保持中间结果，所以状态可能无限膨胀
window agg	窗口结束产生一个总的聚合结果	append流	不生成中间结果，自动清除状态

下面是详细对比和具体的例子（主要讨论的是流处理下的情况）。

over聚合：over agg

OVER 聚合通过排序后的范围数据为每行输入计算出聚合值。和 GROUP BY 聚合不同， OVER 聚合不会把结果通过分组减少到一行，它会为每行输入增加一个聚合值，结果是一个append流。

OVER 窗口的语法。

SELECT
  agg_func(agg_col) OVER ([PARTITION BY col1[, col2, ...]]ORDER BY time_col
    range_definition),...
FROM ...

over聚合很少用到，所以本地自己做了一个测试：

测试sql如下：

create table test_window_tab(region String,qa_id String,count_qa_id Bigint) COMMENT ''with('properties.bootstrap.servers' ='','json.fail-on-missing-field' = 'false','connector' = 'kafka','format' = 'json','topic' = 'test_window_tab');create table dwm_qa_score(,qa_id String   ,agent_id String,region String,saas_id String,version_timestamp bigint, ts as to_timestamp(from_unixtime(`version_timestamp`, 'yyyy-MM-dd HH:mm:ss')),`event_time` TIMESTAMP(3) METADATA FROM 'timestamp' VIRTUAL,WATERMARK FOR `ts` AS `ts` - INTERVAL '10' SECOND) COMMENT ''with('properties.bootstrap.servers' ='','json.fail-on-missing-field' = 'false','connector' = 'kafka','format' = 'json','scan.startup.mode' = 'earliest-offset','topic' = 'dwm_qa_score');insert into test_window_tab(region,qa_id,count_qa_id)select region,qa_id,count(1)  over w as count_qa_idfrom dwm_qa_scorewindow w as(partition by region,qa_idorder by tsrows between 2 preceding and current row)

dwm_qa_score这个topic现有数据：

{ "qa_id": "123", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

{ "qa_id": "123", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

{ "qa_id": "123", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

{ "qa_id": "123", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

{ "qa_id": "123", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

{ "qa_id": "1234", "agent_id": "497235295815123",

"region": "TH", "version_timestamp": 1709807228

}

当读数据选择了offset=ealiest-offset，则运行程序会得到结果如下：

{"region":"TH","qa_id":"123","count_qa_id":1}

{"region":"TH","qa_id":"123","count_qa_id":2}

{"region":"TH","qa_id":"123","count_qa_id":3}

{"region":"TH","qa_id":"123","count_qa_id":3}

{"region":"TH","qa_id":"123","count_qa_id":3}

{"region":"TH","qa_id":"1234","count_qa_id":1}

这里注意：

对每条数据都会返回一个聚合值
由于我们是“rows between 2 preceding and current row“，所以count_qa_id最多是3

如果此时往dwm_qa_score这个topic插入新数据：

{ "qa_id": "1234", "agent_id": "497235295815123",

"region": "TH"

}

或者

{ "qa_id": "1234", "agent_id": "497235295815123",

"region": "TH","version_timestamp": null

}

或者

{ "qa_id": "1234", "agent_id": "497235295815123",

"region": "TH","version_timestamp": 0

}

会发现flink作业中输出的record多了一条：

但是在目标kafka：test_window_tab中没有新增结果

原因是我们插入的新数据中没有version_timestamp这一列为空或为0

如果往dwm_qa_score这个topic插入新数据：

{

"qa_id": "1234",

"region": "TH",

"version_timestamp": 1710145110

}

则可以看到对应目标kafka：test_window_tab中会新增结果数据

{"region":"TH","qa_id":"1234","count_qa_id":2}

如果等一分钟后，再次往dwm_qa_score这个topic插入新数据：

{

"qa_id": "1234",

"region": "TH",

"version_timestamp": 1710145110

}

则在目标kafka：test_window_tab中没有新增结果，原因应该是数据过期被丢弃了（watermark)

你可以在一个 SELECT 子句中定义多个 OVER 窗口聚合。然而，对于流式查询，由于目前的限制，所有聚合的 OVER 窗口必须是相同的。

ORDER BY

OVER 窗口需要数据是有序的。因为表没有固定的排序，所以 ORDER BY 子句是强制的。对于流式查询，Flink 目前只支持 OVER 窗口定义在升序（asc）的时间属性上。其他的排序不支持。

PARTITION BY

OVER 窗口可以定义在一个分区表上。PARTITION BY 子句代表着每行数据只在其所属的数据分区进行聚合。

范围（RANGE）定义

范围（RANGE）定义指定了聚合中包含了多少行数据。范围通过 BETWEEN 子句定义上下边界，其内的所有行都会聚合。Flink 只支持 CURRENT ROW 作为上边界。

有两种方法可以定义范围：ROWS 间隔和 RANGE 间隔

RANGE 间隔

RANGE 间隔是定义在排序列值上的，在 Flink 里，排序列总是一个时间属性。下面的 RANG 间隔定义了聚合会在比当前行的时间属性小 30 分钟的所有行上进行。

RANGE BETWEEN INTERVAL '30' MINUTE PRECEDING AND CURRENT ROW

ROW 间隔

ROWS 间隔基于计数。它定义了聚合操作包含的精确行数。下面的 ROWS 间隔定义了当前行 + 之前的 10 行（也就是11行）都会被聚合。

ROWS BETWEEN 10 PRECEDING AND CURRENT ROW

常见错误

OVER windows' ordering in stream mode must be defined on a time attribute.

这个报错，是建表的时候需要指定时间语义的字段，WATERMARK 是必须的，而且WATERMARK所用字段必须是order by的时间字段，例如下面用的是 order by load_date，那么WATERMARK就要用load_date生成，即WATERMARK FOR load_date AS load_date - INTERVAL '1' MINUTE

object SqlOverRows02 {def main(args: Array[String]): Unit = {
    val settings = EnvironmentSettings.newInstance().inStreamingMode().build()
    val tEnv = TableEnvironment.create(settings)    tEnv.executeSql("""
        |create table projects(
        |id int,
        |name string,
        |score double,
        |load_date timestamp(3),
        |WATERMARK FOR load_date AS load_date - INTERVAL '1' MINUTE
        |)with(
        |'connector' = 'kafka',
        |'topic' = 'test-topic',
        |'properties.bootstrap.servers' = 'server120:9092',
        |'properties.group.id' = 'testGroup',
        |'scan.startup.mode' = 'latest-offset',
        |'format' = 'csv'
        |)
        |""".stripMargin)
    tEnv.executeSql("""
        |select
        | name,
        | max(score)
        |   over(partition by name
        |     order by load_date
        |     RANGE BETWEEN INTERVAL '10' SECOND PRECEDING AND CURRENT ROW )max_score,
        | min(score)
        |   over(partition by name
        |     order by load_date
        |     RANGE BETWEEN INTERVAL '10' SECOND PRECEDING AND CURRENT ROW )min_score,
        | current_time
        | from
        | projects
        |""".stripMargin).print()}
}

分组聚合：group agg

Apache Flink 支持标准的 GROUP BY 子句来聚合数据。

SELECT COUNT(*) FROM Orders GROUP BY order_id

特点：

1、聚合函数把多行输入数据计算为一行结果。例如，有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”、“MAX”和 “MIN”。

2、对于流式查询，重要的是要理解 Flink 运行的是连续查询，永远不会终止，会根据其输入表的更新来更新其结果表。对于上述查询，每当有新行插入 Orders 表时，Flink 都会实时计算并输出更新后的结果。

3、对于流式查询，用于计算查询结果的状态可能无限膨胀。状态的大小取决于分组的数量以及聚合函数的数量和类型。例如：MIN/MAX 的状态是重量级的，COUNT 是轻量级的，因为COUNT只需要保存计数值。

因此，可以设置table-exec-state-ttl，但是可能会影响查询结果的正确性，因为状态超时会被丢弃。

注意：

Flink 对于分组聚合提供了一系列性能优化的方法。更多参见：性能优化，包括MiniBatch 聚合、Local-Global 聚合、拆分 distinct 聚合、在 distinct 聚合上使用 FILTER 修饰符、MiniBatch Regular Joins

窗口聚合：window agg

窗口聚合是通过 GROUP BY 子句定义的，其特征是包含窗口表值函数产生的 “window_start” 和 “window_end” 列（必须包含，否则就变成分组聚合等了）。和普通的 GROUP BY 子句一样，窗口聚合对于每个组会计算出一行数据。

SELECT ...
FROM <windowed_table> -- relation applied windowing TVF
GROUP BY window_start, window_end, ...

窗口聚合不产生中间结果，只在窗口结束产生一个总的聚合结果，另外，窗口聚合会清除不需要的中间状态(watermark超过窗口end+allowlateness,就会销毁窗口）。

具体例子:

SELECT window_start, window_end, SUM(price) AS

total_price

FROM TABLE(

TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '10' MINUTES))

GROUP BY window_start, window_end;

+------------------+------------------+-------------+

| window_start | window_end | total_price |

+------------------+------------------+-------------+

| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |

| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |

+------------------+------------------+-------------+

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/738204.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

使用OpenCV实现两张图像融合在一起

使用OpenCV实现两张图像融合在一起

简单介绍图像融合技术是一种结合多个不同来源或不同传感器捕获的同一场景的图像数据，以生成一幅更全面、更高质量的单一图像的过程。这种技术广泛应用于遥感、医学影像分析、计算机视觉等多个领域。常见的图像融合技术包括基于像素级、特征级和决策级的融合方法&a…

阅读更多...

基与HTML5的塔防游戏设计与实现

基与HTML5的塔防游戏设计与实现

目录摘要 I Abstract II 引言 1 1 项目背景与相关技术 3 1.1 背景与发展简介 3 1.2 HTML5技术及其优势 4 1.3 JavaScript开发的优势与劣势 4 1.4 CSS样式表在开发中的用处 5 1.5 本章小结 6 2 系统分析 7 2.1 需求分析 7 2.2 问题分析 7 2.3 流程设计 7 2.3 功能分析 8 2.…

阅读更多...

数据分析入门，深入浅出的数据分析

数据分析入门，深入浅出的数据分析

时下正值大数据与人工智能高速发展的时刻，相信很多对数据分析感兴趣的朋友想要转行。很多朋友选择从事数据分析，主要是看到这个岗位的发展前景和薪资待遇。但是一些小伙伴并不知道数据分析到底是做什么的？需要用到哪些知识？ 为…

阅读更多...

【Flink SQL】Flink SQL 基础概念：SQL Table 运行环境、基本概念及常用 API

【Flink SQL】Flink SQL 基础概念：SQL Table 运行环境、基本概念及常用 API

Flink SQL 基础概念：SQL & Table 运行环境、基本概念及常用 API 1.SQL & Table 简介及运行环境1.1 简介1.2 SQL 和 Table API 运行环境依赖 2.SQL & Table 的基本概念及常用 API2.1 一个 SQL / Table API 任务的代码结构2.2 SQL 上下文：Tabl…

阅读更多...

linux部署服务相关基础操作：磁盘挂载、jdk安装、docker安装、docker-compose环境安装、mysql、redis、jenkins等

linux部署服务相关基础操作：磁盘挂载、jdk安装、docker安装、docker-compose环境安装、mysql、redis、jenkins等

磁盘挂载 1、运行mount查看数据盘挂载信息。返回结果中没有/dev/vdb1的信息。 2、运行fdisk -l查看数据盘分区信息。 3、格式化磁盘 mkfs -t ext4 /dev/vdb3.1、 (格式化后这一步跳过)运行cat /etc/fstab查看数据盘分区/dev/vdb1原有的挂载点名称。 4、运行mkdir /data重新…

阅读更多...

[python3] 责任链模式

[python3] 责任链模式

责任链模式（Chain of Responsibility Pattern）是一种行为设计模式，它允许多个对象都有机会处理请求，从而避免请求的发送者和接收者之间的耦合关系。请求沿着链传递，直到有一个对象处理它为止。下面是一个简单的 Pyth…

阅读更多...

Linux---多线程(上)

Linux---多线程(上)

一、线程概念线程是比进程更加轻量化的一种执行流 / 线程是在进程内部执行的一种执行流线程是CPU调度的基本单位，进程是承担系统资源的基本实体在说线程之前我们来回顾一下进程的创建过程，如下图那么以进程为参考，我们该如何去设计创建一个…

阅读更多...

paddle的版面分析的环境搭建及使用

paddle的版面分析的环境搭建及使用

一、什么是版面分析版面分析技术，主要是对图片形式的文档进行版面分析，将文档划分为文字、标题、表格、图片以及列表5类区域，如下图所示： 二、应用场景 2.1 合同比对 2.2 文本类型划分 2.3 通用文档的还原版面分析技术可将以…

阅读更多...

论文阅读FCN-Transformer Feature Fusion for PolypSegmentation

论文阅读FCN-Transformer Feature Fusion for PolypSegmentation

本文提出了一种名为Fully Convolutional Branch-TransFormer (FCBFormer)的图像分割框架。该架构旨在结合Transformer和全卷积网络（FCN）的优势，以提高结肠镜图像中息肉的检测和分类准确性。 1，框架结构： 模型采用双分…

阅读更多...

【Python】牛客网—软件开发-Python专项练习

【Python】牛客网—软件开发-Python专项练习

专栏文章索引：Python 1.（单选）下面哪个是Python中不可变的数据结构？ A.set B.list C.tuple D.dict 可变数据类型：列表list[ ]、字典dict{ }、集合set{ }(能查询，也可更改)数据发生改…

阅读更多...

Golang 开发实战day03 - Arrays Slices

Golang 开发实战day03 - Arrays Slices

Golang 教程03 - Arrays，Slices Go语言中的数组和切片都是用于存储数据的类型，但它们之间存在一些重要的区别。了解这些区别对于有效地使用它们至关重要。 1. Arrays 数组 1.1 定义数组是一种固定大小的数据结构，用于存储相同类型的值。…

阅读更多...

广西省行政村边界shp数据/广西省乡镇边界/广西省土地利用分类数据/径流分布

广西省行政村边界shp数据/广西省乡镇边界/广西省土地利用分类数据/径流分布

广西壮族自治区，地处中国南部，北回归线横贯中部。南北以贺州——东兰一线为界，此界以北属中亚热带季风，以南属南亚热带季风。数据范围：全国行政区划-行政村界数据类型：面状数据，全国各省市县…

阅读更多...

1月笔记本电脑行业分析：多品牌下滑但ThinkPad逆势增长！

1月笔记本电脑行业分析：多品牌下滑但ThinkPad逆势增长！

2024年1月，笔记本行业市场格局出现较大的变化。长期在京东平台保持头部联想和惠普，被ThinkPad挤下（虽然是联想旗下品牌），排名掉至第二和第三。ThinkPad以超2.7亿的月销售额成绩拿下第一，市占比16%。与去年…

阅读更多...

PHP使用 enqueue/amqp-lib拓展实现rabbitmq任务处理

PHP使用 enqueue/amqp-lib拓展实现rabbitmq任务处理

一：拓展安装 composer require enqueue/amqp-lib 文档地址：https://github.com/php-enqueue/enqueue-dev/blob/master/docs/transport/amqp_lib.md 二：方法介绍 1：连接rabbitmq $factory new AmqpConnectionFactory([host &…

阅读更多...

java SSM农产品订购网站系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

java SSM农产品订购网站系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM农产品订购网站系统是一套完善的web设计系统（系统采用SSM框架进行设计开发，springspringMVCmybatis），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采…

阅读更多...

如何在 Unity 中创建简单的多人游戏

如何在 Unity 中创建简单的多人游戏

在本文中，我将向你展示如何将 Mirror 添加到 Unity 项目中，并创建一个简单的多人游戏。你还可以从 GitHub下载项目文件。Mirror 是一个网络库，可让你在 Unity 中轻松创建多人游戏。它是免费的、开源的，实际上是 UNET（Unity 自己已弃用的网络 API）的一个分支。游戏每个…

阅读更多...

算法-贪心-112. 雷达设备

算法-贪心-112. 雷达设备

题目假设海岸是一条无限长的直线，陆地位于海岸的一侧，海洋位于另外一侧。每个小岛都位于海洋一侧的某个点上。雷达装置均位于海岸线上，且雷达的监测范围为 d，当小岛与某雷达的距离不超过 d 时，该小岛可以被雷达覆…

阅读更多...

大语言模型：Large Language Models Are Human-Level Prompt Engineers概述

大语言模型：Large Language Models Are Human-Level Prompt Engineers概述

研究内容如何通过prompt，在不进行微调大语言模型的前提下，增加大语言模型的表现研究动机 prompt非常有用，但是人工设置的非常不自然；因此提出了要自动使用大语言模型自己选择prompt；取得了很好的效果。作者主要…

阅读更多...

python实现生成树

python实现生成树

生成树生成树（Spanning Tree）是一个连通图的生成树是图的极小连通子图，它包含图中的所有顶点，并且只含尽可能少的边。这意味着对于生成树来说，若砍去它的一条边，则会使生成树变成非连通图；若给…

阅读更多...

Git LFS【部署 01】Linux环境安装git-lfs及测试

Git LFS【部署 01】Linux环境安装git-lfs及测试

Linux系统安装git-lfs及测试 1.下载2.安装3.测试4.总结 Git LFS（Large File Storage）是一个用于Git版本控制系统的扩展，它专门用来管理大型文件，如图像、音频和视频文件。 1.下载安装包下载页面：https://github.com/…

阅读更多...

最新文章