HIVE窗口函数

什么是窗口函数

hive中开窗函数通过over关键字声明;窗口函数,准确地说,函数在窗口中的应用;比如sum函数不仅可在group by后聚合,在可在窗口中应用;

hive中groupby算子和开窗over,shuffle的逻辑都是一样的;map时生成键值对,key在groupby中是group by 后跟的字段,在over 中是partition by后跟的字段;

select group_name,sum(sales) as sum_sales from dw_sec_saler_info group by group_name 中分组(key)字段是group_name

select group_name,id,sum(sales) over(partition by group_name) as sum_sales from dw_sec_saler_info 分组(key)字段也是group_name;如果开窗没有指定partition by 窗口,则函数是对全局数据应用;

与groupby不同的是,groupby每个key返回一条记录,而开窗函数,在开窗之前数据有多少行返回多少行;类似于在窗口中对每行数据应用了一个map函数,map函数传入的是指定窗口的数据,返回窗口函数计算的值;

一个select子句中,如果有多个开窗函数,尽管函数不同,倘若开窗分组字段是一样的(partition by字段是一样的),这几个开窗函数在逻辑计划可能是由一个mr实现的,因为shuffle的key是一样的;

比如:partition by 的字段都是class

select name,class  -- 班级,english_score  -- 英语成绩,math_score  -- 数学成绩,row_number() over(order by english_score+math_score) as total_rank  -- 总排名,该窗口由一个mr完成,row_number() over(partiton by class order by english_score) as english_class_rank  -- 班级中英语排名,row_number() over(partiton by class order by math_score) as english_class_rank   -- 班级中数学排名
from dw_cus_class_score_info

以上sql,通常由两个mr完成;一个mr完成class开窗逻辑,计算english_class_rankenglish_class_rank,另外一个mr计算total_rank ;具体看执行计划;


开窗函数应用

语法:函数 + over( [partition by …] [order by …] [窗口子句] )

over:开窗关键字

partition by:声明窗口划分依据,把partition by后字段相同的数据划到同一个窗口;如果没有指定分组字段,则是对全局数据应用函数;

order by:排序字段;需要注意的是,没有指定该关键字,每次返回排序可能不一样;

窗口子句:可以进一步限定范围;语法:(rows | range) between ... and ...

row就行的相对位置,range 表示的是值, 表示比这个值小n的行,比这个值大n的行即range between 是以当前值为锚点进行计算

如果指定窗口,则是窗口所有数据;等价于rows between unbounded preceding and unbounded following

(rows | range) between (unbounded | [num]) preceding and ([num] preceding | current row | (unbounded | [num]) following

(rows | range) between current row and (current row | (unbounded | [num]) following)

(rows | range) between [num] following and (unbounded | [num]) following

其中:
unbounded preceding:组内第一行数据
n preceding:组内当前行的前n行数据
current row:当前行数据
n following:组内当前行的后n行数据
unbounded following:组内后一行数据

在这里插入图片描述
图片转自:https://zhuanlan.zhihu.com/p/401242504

比如各个小组按日期升序排列对销售额累计求和:

select sales,dt,group_name,sum(sales) over(partition by group_name   -- 窗口分组字段是group_nameorder by dt asc     -- 按日期升序排列rows between unbounded preceding and current_now   -- 窗口是第一行到当前行) as consum_sales
from table_name 

常用窗口函数

1. 排名函数

  • row_number
    连续不重复排序,比如:1,2,3,4,5
  • rank
    重复跨越排序,如果两个数据是一样的,排名是一样的;比如:1,2,3,3,5;有两个3,占了两个位置,所以下一个排序是5
  • desne_rank
    重复连续排序,如果两个数据是一样的,排名是一样的,但下一个排名数字是紧挨着上一个排名,比如:1,2,3,3,4

2. 聚合计算函数

  • sum
    求和
  • avg
    平均数
  • count
    计数
  • max/min
    最大/最小值

3. 序列函数

  • lag
    返回当前数据行的上一行数据
  • lead
    返回当前数据行的下一行数据
  • first_value
    取分组内排序后,截止到当前行,第一个值
  • last_value
    分组内排序后,截止到当前行,后一个值
  • ntile
    将分组的数据按照顺序切分成n片,返回当前切片值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试 Java 算法高频题五问五答第一期

面试 Java 算法高频题五问五答第一期 作者:程序员小白条,个人博客 相信看了本文后,对你的面试是有一定帮助的! ⭐点赞⭐收藏⭐不迷路!⭐ 1)括号生成: 数字 n 代表生成括号的对数,请你设计一个…

OpenSergo Dubbo 微服务治理最佳实践

*作者:何家欢,阿里云 MSE 研发工程师 Why 微服务治理? 现代的微服务架构里,我们通过将系统分解成一系列的服务并通过远程过程调用联接在一起,在带来一些优势的同时也为我们带来了一些挑战。 如上图所示,可…

C语言之枚举类型

目录 枚举类型 枚举常量 枚举类型的特征 命名空间 本节我们来学习表示一定整数值的集合的枚举类型。 枚举类型 老样子&#xff0c;我们先用一段程序引出&#xff1a; /*显示所选动物的叫声*/ #include<stdio.h>enum animal {Dog, Cat, Monkey, Invalid}; /*显示狗叫…

Zotero攻略

给大家分享一下我对于Zotero的使用。 1、下载链接 Zotero | Your personal research assistant 进入后直接下载即可 2、一些好用的插件 &#xff08;1&#xff09;Zotero Connector 下载地址&#xff1a;Zotero | Connectors 超级好用&#xff01;不用一篇一篇下PDF了&am…

Redis设计与实现之事务

一、事务 Redis 通过 MULTI 、DISCARD 、EXEC 和 WATCH 四个命令来实现事务功能&#xff0c;本章首先讨 论使用 MULTI 、DISCARD 和 EXEC 三个命令实现的一般事务&#xff0c;然后再来讨论带有 WATCH 的事务的实现。 因为事务的安全性也非常重要&#xff0c;所以本章最后通过…

【JavaWeb】Request(学习笔记)

一、Request概述 1、request对象和response对象的原理 tomcat服务器会根据请求u1中的资源路径&#xff0c;创建对应的ServletDemo1对象tomcat 服务器&#xff0c;会创建request对象和response对象&#xff0c;request对象中封装请求消息数据tomcat将request和response两个对象…

18个非技术面试题

请你自我介绍一下你自己&#xff1f; 这道面试题是大家在以后面试过程中会常被问到的&#xff0c;那么我们被问到之后&#xff0c;该如果回答呢&#xff1f;是说姓名&#xff1f;年龄&#xff1f;还是其他什么&#xff1f; 最佳回答提示&#xff1a; 一般人回答这个问题往往会…

为什么参数上必须加@RequestBody?

PostMapping("/login")public Result<Map<String,Object>> login(RequestBody User user){return Result.success();} 在这个 PostMapping("/login") 的控制器方法中&#xff0c;使用 RequestBody 注解的目的是将请求体中的 JSON 数据映射到方…

函数柯里化 剖析

定义一个函数&#xff0c;以闭包的方式内部函数调用外部函数,并返回内部函数 function calc(n){ //args是获取的第一次参数的值let argsArray.prototype.slice.call(arguments)// 上面的args写法等同于下方的for循环// for (var i 0; i < arguments.length; i) {// A…

neuq-acm预备队训练week 9 P1119 灾后重建

解题思路 本题可以用最短路算法——Floyd AC代码 #include<bits/stdc.h> #define inf 1e9 using namespace std; const int N 2e2 50; int n, m, q, now 0, a, b, c, t[N], G[N][N];int main() {scanf("%d%d", &n, &m);for(int i 0;i<n;i)sc…

设计模式-GOF对各个模式的定义

以下内容是对设计模式之父GOF的著作《设计模式——可复用面向对象软件的基础》定义的摘抄 1 抽象工厂 意图 提供一个接口以创建一系列相关或相互依赖的对象&#xff0c;而无须指定它们具体的类。 适用性 在以下情况下使用抽象工厂模式&#xff1a; 一个系统要独立于它的产…

2023新时代中国模特大赛总决赛在京落幕

12月16日&#xff0c;备受瞩目的2023新时代中国模特大赛圆满落幕。本次大赛旨在挖掘和培养具有新时代特色的模特人才&#xff0c;推动中国时尚产业的创新发展。 作为中国时尚界的重要赛事&#xff0c;新时代中国模特大赛吸引了来自全国各地的优秀模特选手45名参加全国总决赛。在…

ReactHooks大全—useState

React Hooks是React 16.8版本引入的一种新的编程范式&#xff0c;它可以让我们在不使用class的情况下&#xff0c;使用state和其他React特性&#xff0c;。React Hooks的出现&#xff0c;不仅提高了函数组件的功能和复用性&#xff0c;也简化了组件的编写和维护&#xff0c;让我…

Spring 依赖查找知识点总结

前言 源码在我github的guide-spring仓库中&#xff0c;可以克隆下来 直接执行。 我们本文主要来介绍依赖查找的使用示例 依赖查找 什么是依赖查找 依赖查找并不是 Spring 框架特有的概念&#xff0c;它是一种在软件开发中获取依赖对象的方式。它通常用于获取运行时需要的服…

The Grid – Responsive WordPress Grid响应式网格插件

点击阅读The Grid – Responsive WordPress Grid响应式网格插件原文 The Grid – Responsive WordPress Grid响应式网格插件是一个高级 wordpress 网格插件&#xff0c;它允许您在完全可定制且响应迅速的网格系统中展示任何自定义帖子类型。 Grid WordPress 非常适合展示您的博…

QT信号、槽机制介绍与实现

时间记录&#xff1a;2023/12/17 1.介绍 QT中进行对象之间事件的处理机制为信号、槽机制&#xff0c;即一个对象状态改变时发出信号&#xff0c;然后与此信号进行绑定的对应槽便会被触发&#xff0c;类似于c/c里面的回调函数机制 2.信号 在一定情况下被发射的事件&…

【TB作品】51单片机,语音出租车计价器

西交大题目 1.语音出租车计价器 一、功能要求: 1.具有可模拟出租车车轮转速传感器的硬件设计,可计量出租车所走的公 里数。 2.显示和语音播报里程、价格和等待红灯或堵车的计时价格: 3.具有等待计时功能 4.具有实时年月日显示和切换功能。 5.操作简单、界面友好。 二、设计建议…

08-工厂方法

意图 定义一个用于创建对象的接口&#xff0c;让子类决定实例化哪一个类 类图 适用性 在下列情况可以使用工厂方法模式&#xff1a; 当一个类不知道它所必须创建的对象的类的时候。当一个类希望由它的子类来指定它所创建的对象的时候。当类将创建对象的职责委托给多个帮助子…

PCL 已知同名点对计算旋转矩阵并对点云进行旋转

目录 一、 算法概述二、代码实现三、测试示例一、 算法概述 适用:已知三组及三组以上的同名点对,计算旋转矩阵;然后根据旋转矩阵对点云进行旋转,最后保存旋转后的点云文件。 二、代码实现 #include <Eigen/Core> #include <Eigen/Dense>

c++程序设计定义一个MyString类,实现两个字符串连接。要求定义类的数据成员为字符指针,实现深拷贝函数。

定义一个MyString类&#xff0c;实现两个字符串连接。要求定义类的数据成员为字符指针&#xff0c;实现深拷贝函数。 要求&#xff1a;不能使用<string>,可以使用<cstring>中的 strcpy 、strcat、strcmp以及strlen( )等函数 已知测试函数如下&#xff1a; int m…