spark window源码探索

spark window源码探索

news/2025/4/29 15:54:38/文章来源:https://blog.csdn.net/weixin_43283487/article/details/135910446

核心类：

1. WindowExec 物理执行逻辑入口，主要doExecute()和父类WindowExecBase

2. WindowFunctionFrame 窗框执行抽象，其子类对应sql语句的不同窗框

其中又抽象出BoundOrdering类, 用于判断一行是否在界限内(Bound), 分为RowBoundOrdering和RangeBoundOrdering

我们的UDAF在何时已什么顺序接受数据, 何时会被执行eval, 都取决于窗框内方法调用逻辑!

3. AggregateProcessor 负责调用一个frame下的各个窗口函数, 起着包装/代理的功能

AggregateProcessor中三个关键方法: initialize, update, evaluate, 里面都是去调用具体Function的对应方法

4. WindowExpression：窗口函数表达式，将一个表达式和一个窗口规范关联起来，用于在数据集的窗口上进行计算

代码流程

WindowExec这个类是物理执行逻辑入口，它有一个父类WindowExecBase

1. 在这里可以看到如果有partition关键字，就是hashpartition，没有partition by就会是singlepartition

2. 再看聚合的类 AggregateProcessor，明确说明了窗口函数只会使用Complete聚合模式，也就是说窗口操作，相同key的数据一定在同一分区，所以window函数的性能是比group要差的

回到WindowExec，我们再来看doExecute()做了什么

首先windowFrameExpressionFactoryPairs 主要是根据窗口表达式, 生成下面几个执行需要的核心类的对象

对RDD调用mapPartitions, 需要处理Iterator[InternalRow]并返回一个Iterator[InternalRow]

window执行过程中额外设置了buffer进行汇总，每个窗口中数据的缓存结构，有大小和条数限制，超出会移出到磁盘

fetchNextPartition做的事, 就是从子RDD的分区的Iterator[InternalRow]中, 每次读取同组的所有行(partition by列值相同的所有行). 它的执行逻辑, 依赖于RDD中的数据已经按照要求分区排序好了, 所以代码不复杂.

并经过一系列处理后join得到的window function result返回

另外可以看到上诉两个代码其实都是在调用frame（WindowFunctionFrame）的两个方法：

prepare(rows: ExternalAppendOnlyUnsafeRowArray): Prepare the frame for calculating the results for a partition. 在WindowExec的fetchNextPartition中被调用, 接收到同组的所有输入行.
write(index: Int, current: InternalRow): Write the current results to the target row. 向target中写入当前行的计算结果. 一次一行.

而且多个窗口时explain可以看到多个窗口串行执行

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/655354.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

flask 实现token生成以及携带token请求接口

flask 实现token生成以及携带token请求接口

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Flask-JWT-Extended是什么？二、使用步骤1.引入库2.请求验证总结前言提示：这里可以添加本文要记录的大概内容： 提示&…

阅读更多...

总结10（break和continue）

总结10（break和continue）

break break如果用于循环是用来终止循环 break如果用于switch，则是用于终止switch break不能直接用于if，除非if属于循环内部的一个子句（下图为举例） 例1： （该图中break与if没有关系，只终止for循…

阅读更多...

3、css设置样式总结、节点、节点之间关系、创建元素的方式、BOM

3、css设置样式总结、节点、节点之间关系、创建元素的方式、BOM

一、css设置样式的方式总结： 对象.style.css属性对象.className ‘’ 会覆盖原来的类对象.setAttribut(‘style’,‘css样式’) 对象.setAttribute(‘class’,‘类名’) 对象.style.setProperty(css属性名,css属性值) 对象.style.cssText “css样式表” …

阅读更多...

利用外卖系统源码构建高效的在线订餐平台

利用外卖系统源码构建高效的在线订餐平台

在当今数字化时代，外卖服务已成为人们日常生活中不可或缺的一部分。为了满足用户需求，许多创业者和企业都希望搭建自己的在线订餐平台。利用现有的外卖系统源码，可以快速构建一个高效、安全的在线订餐平台。本文将介绍如何利用外卖系统源码来…

阅读更多...

$Latex warning: Ignoring empty anchor,如何解决？$

Latex warning: Ignoring empty anchor,如何解决？

目录一、解决办法： 二、另一种潜在的方法： 一、解决办法： 在\footnotetext{....}前添加：\makeatletter\def\HyWarning#1{}\makeatother \makeatletter\def\HyWarning#1{}\makeatother \footnotetext{*Address Correspondence…

阅读更多...

SeaTunnel集群安装

SeaTunnel集群安装

环境准备服务器节点节点名称 IP bigdata1 192.168.1.250 bigdata4 192.168.1.251 bigdata5 192.168.1.252 Java环境（三个节点都需要） java1.8 注意：在安装SeaTunnel集群时，最好是现在一个节点上将所有配置都修改完&a…

阅读更多...

AI工具【OCR 01】Java可使用的OCR工具Tess4J使用举例（身份证信息识别核心代码及信息提前方法分享）

AI工具【OCR 01】Java可使用的OCR工具Tess4J使用举例（身份证信息识别核心代码及信息提前方法分享）

Java可使用的OCR工具Tess4J使用举例 1.简介1.1 简单介绍1.2 官方说明 2.使用举例2.1 依赖及语言数据包2.2 核心代码2.3 识别身份证信息2.3.1 核心代码2.3.2 截取指定字符2.3.3 去掉字符串里的非中文字符2.3.4 提取出生日期（待优化）2.3.5 实测 3.总结 1.简…

阅读更多...

# Redis 分布式锁如何自动续期

# Redis 分布式锁如何自动续期

Redis 分布式锁如何自动续期何为分布式分布式，从狭义上理解，也与集群差不多，但是它的组织比较松散，不像集群，有一定组织性，一台服务器宕了，其他的服务器可以顶上来。分布式的每一个节点&…

阅读更多...

搭建 prometheus + grafana + springboot3 监控

搭建 prometheus + grafana + springboot3 监控

下载安装包下载prometheus：https://github.com/prometheus/prometheus/releases/download/v2.42.0/prometheus-2.42.0.windows-amd64.zip 下载grafana： https://dl.grafana.com/enterprise/release/grafana-enterprise-9.4.1.windows-amd64.zip Spr…

阅读更多...

Python中容器类型的数据

Python中容器类型的数据

目录序列序列的索引操作加和乘操作切片操作成员测试列表创建列表追加元素插入元素替换元素删除元素元组创建元组元组拆包集合创建集合修改集合字典创建字典修改字典访问字典视图遍历字典若我们想将多个数据打包并且统一管理&…

阅读更多...

Cloudreve个人网盘系统源码支持云存储（七牛、阿里云OSS、腾讯云COS、又拍云、OneDrive）基于Go框架

Cloudreve个人网盘系统源码支持云存储（七牛、阿里云OSS、腾讯云COS、又拍云、OneDrive）基于Go框架

现在的网盘动不动就限速，涨价，弄得很是心烦。今天分享一款开源免费的网盘项目，基于 Go 语言开发的 Cloudreve。Cloudreve基于Go框架云存储个人网盘系统源码支持多家云存储驱动（从机、七牛、阿里云 OSS、腾讯云 COS、又拍云、OneDr…

阅读更多...

Win10 双网卡实现同时上内外网

Win10 双网卡实现同时上内外网

因为需要同时上内网和外网，但公司做了网络隔离，不能同时上内外网，所以多加了块无线网卡，配置双网关实现同时上内外网，互不影响打开 Windows PowerShell（管理员），输入：ro…

阅读更多...

翻译: GPT-4 Vision通过量身定制的推荐来增强应用的用户体验升级Streamlit五

翻译: GPT-4 Vision通过量身定制的推荐来增强应用的用户体验升级Streamlit五

GPT-4 Vision 系列: 翻译: GPT-4 with Vision 升级 Streamlit 应用程序的 7 种方式一翻译: GPT-4 with Vision 升级 Streamlit 应用程序的 7 种方式二翻译: GPT-4 Vision静态图表转换为动态数据可视化升级Streamlit 三翻译: GPT-4 Vision从图像转换为完全可编辑的表格升级St…

阅读更多...

【新书推荐】3.2节位运算之加减乘除

【新书推荐】3.2节位运算之加减乘除

本节内容：二进制移位运算，以及逻辑运算与算术运算之间的转换。任何进制的位运算本质都是一样的。 ■二进制数移位运算：二进制数向左移位运算相当于做2的幂乘法运算，二进制数向右移位运算，相当于做2的幂除法运算。 ■十…

阅读更多...

MySQL安全（一）权限系统

MySQL安全（一）权限系统

一、授权 1、创建用户在MySQL中，管理员可以通过以下命令创建用户： namelocalhost IDENTIFIED BY password; name是要创建的用户名，localhost表示该用户只能从本地连接到MySQL，password是该用户的密码。如果要允许该用户从任何…

阅读更多...

【深度优先搜索】【组合数学】【动态规划】1467.两个盒子中球的颜色数相同的概率

【深度优先搜索】【组合数学】【动态规划】1467.两个盒子中球的颜色数相同的概率

作者推荐【动态规划】【字符串】【行程码】1531. 压缩字符串本文涉及知识点动态规划汇总深度优先搜索组合数学 LeetCode1467 两个盒子中球的颜色数相同的概率桌面上有 2n 个颜色不完全相同的球，球上的颜色共有 k 种。给你一个大小为 k 的整数数组 balls …

阅读更多...

启发式搜索(A*、IDDFS、IDA*)

启发式搜索(A、IDDFS、IDA)

我们在解决图问题的时候，通常需要使用DFS和BFS搜索，可是这两种搜索方式的效率较低，我们会遍历到很多空白节点，有没有办法可以优化这种低效问题呢？今天要推出我们的主角：启发式搜索。一、A* 什么是A*算法…

阅读更多...

MySQL索引原理以及SQL优化

MySQL索引原理以及SQL优化

案例 struct index_failure_t{int id;string name;int cid;int score;string phonenumber;}Map<int,index_failure>; 熟悉C的同学知道，上述案例中，我们map底层是一颗红黑树，一个节点存储了一对kv（键值对）&…

阅读更多...

go-zero 非k8s单体服务上线流程

go-zero 非k8s单体服务上线流程

1、安装mysql 镜像 docker pull mysql:5.7 2、创建mysql容器(主机目录要先存在不然启动不起来。/opt/mysqlGo) docker run --name mysql-go -e MYSQL_ROOT_PASSWORD数据库密码 -p 8888:3306 -v /opt/mysqlGo:/var/lib/mysql -d 镜像id 3、可以通过navicat连接数据库&#…

阅读更多...

【微服务】概述

【微服务】概述

微服务架构技术栈梳理【注】本文旨在对微服务架构从整体上有一个简单的认识和了解，每一块都可能涉及较多的解决方案与实现框架，这里不做更深入的介绍。 1.背景（Why） 相关背景，也是推动单体服务走向微服务架构的原因…

阅读更多...

最新文章