hive所有窗口函数详情总结

hive窗口函数详情总结

  • 解释
  • 语法
  • hive开窗函数
    • 排序开窗函数
      • 样例数据
      • RANK()
      • DENSE_RANK()
      • ROW_NUMBER()
    • 分析开窗函数
      • 样例数据:
      • last_value
      • first_value
      • lag
      • lead
    • 其他窗口函数
      • cume_dist
      • percent_rank

解释

开窗函数用于为行定义一个窗口(指运算将要操作的行的集合),它对一组值进行操作,不需要使用 Group By 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。

语法

函数() over(partition by 列名1 order by 列名2 rows between [[unbounded|num] preceding | current row]and [[unbounded|num] following | current row]) rows between:作用为划分表中窗口边界
​ unbounded preceding:表示表中窗口无上边界
​ num preceding:表示表中窗口上界到距离当前行向上num行
​ current row:表示当前行
​ num following:表示表中窗口下界到距离当前行向下num行
​ unbounded following:表示表中窗口无下边界
​ rows between unbounded preceding and unbounded following

hive开窗函数

排序开窗函数

样例数据

select * from test ;
>name score  subjectA     90     语文A 	   90     数学A     98     英语B     93     语文B     90     数学B     94     英语

RANK()

在计算排序时,若存在相同位次,会跳过之后的位次。有3条排在第1位时,排序为:1,1,1,4······
示例:

#按姓名分组,排序每个人的分数从低到高
select name , score , subject ,rank()over(partition by name order by score ) rk from test;
>name score   subject  rk 
> A     90     语文     1
> A 	90     数学     1
> A     98     英语     3
> B     90     数学     1
> B     93     语文     2
> B     94     英语     3

DENSE_RANK()

在计算排序时,若存在相同位次,不会跳过之后的位次。有3条排在第1位时,排序为:1,1,1,2······
示例:

#按姓名分组,排序每个人的分数从低到高
select name , score , subject ,rank()over(partition by name order by score ) rk from test;
>name score   subject  rk 
> A     90     语文     1
> A 	90     数学     1
> A     98     英语     2
> B     90     数学     1
> B     93     语文     2
> B     94     英语     3

ROW_NUMBER()

这个函数赋予唯一的连续位次。例如,有3条排在第1位时,排序为:1,2,3,4······
示例:

#按姓名分组,排序每个人的分数从低到高
select name , score , subject ,rank()over(partition by name order by score ) rk from test;
>name score   subject  rk 
> A     90     语文     1
> A 	90     数学     2
> A     98     英语     3
> B     90     数学     1
> B     93     语文     2
> B     94     英语     3

分析开窗函数

样例数据:

select * from test;RN      ADDRESS     ARRIVAL_TIME         USERID    ------  ----------  -------------------  --------- 1       A1          2012-7-9 下午12:03:21  1                  (null)  A2          2012-7-9 下午12:04:21  2                  (null)  A3          2012-7-9 下午12:05:21  3                 2       A1          2012-7-9 下午12:08:21  4                   (null)  A2          2012-7-9 下午12:09:21  5                   (null)  A3          2012-7-9 下午12:10:21  6                  3       A1          2012-7-9 下午12:13:21  7                   (null)  A3          2012-7-9 下午12:15:21  8                   4       A1          2012-7-9 下午12:18:23  9                   5       A1          2012-7-9 下午12:19:21  10                  (null)  A2          2012-7-9 下午12:20:21  11                 (null)  A3          2012-7-9 下午12:21:21  12                 6       A1          2012-7-9 下午12:23:23  13                  (null)  A2          2012-7-9 下午12:24:21  14        

last_value

取开窗最后一个值
第一个参数是列名,第二个参数可选布尔值,默认值为FALSE,true可以忽略null值

select rn,address,arrival_time,userid,last_value(rn,true) over(order by userid) group_t from test查询结果如下:RN      ADDRESS     ARRIVAL_TIME         USERID     GROUP_T    ------  ----------  -------------------  ---------  ---------- 1       A1          2012-7-9 下午12:03:21  1          1          (null)  A2          2012-7-9 下午12:04:21  2          1          (null)  A3          2012-7-9 下午12:05:21  3          1          2       A1          2012-7-9 下午12:08:21  4          2          (null)  A2          2012-7-9 下午12:09:21  5          2          (null)  A3          2012-7-9 下午12:10:21  6          2          3       A1          2012-7-9 下午12:13:21  7          3          (null)  A3          2012-7-9 下午12:15:21  8          3          4       A1          2012-7-9 下午12:18:23  9          4          5       A1          2012-7-9 下午12:19:21  10         5          (null)  A2          2012-7-9 下午12:20:21  11         5          (null)  A3          2012-7-9 下午12:21:21  12         5          6       A1          2012-7-9 下午12:23:23  13         6          (null)  A2          2012-7-9 下午12:24:21  14         6 

first_value

取开窗第一个值
第一个参数是列名,第二个参数可选布尔值,默认值为FALSE,true可以忽略null值

select rn,address,arrival_time,userid,first_value(rn,true) over(order by userid) group_t from test查询结果如下:RN      ADDRESS     ARRIVAL_TIME         USERID     GROUP_T    ------  ----------  -------------------  ---------  ---------- 1       A1          2012-7-9 下午12:03:21  1          1          (null)  A2          2012-7-9 下午12:04:21  2          1          (null)  A3          2012-7-9 下午12:05:21  3          1          2       A1          2012-7-9 下午12:08:21  4          1          (null)  A2          2012-7-9 下午12:09:21  5          1          (null)  A3          2012-7-9 下午12:10:21  6          1          3       A1          2012-7-9 下午12:13:21  7          1          (null)  A3          2012-7-9 下午12:15:21  8          1          4       A1          2012-7-9 下午12:18:23  9          1          5       A1          2012-7-9 下午12:19:21  10         1          (null)  A2          2012-7-9 下午12:20:21  11         1          (null)  A3          2012-7-9 下午12:21:21  12         1          6       A1          2012-7-9 下午12:23:23  13         1          (null)  A2          2012-7-9 下午12:24:21  14         1 

lag

LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 ,第三个参数指的是往上n个weinull的默认值,不是指开窗那列的值为null的默认值,示例:

select  rn,address,arrival_time,userid,lag(rn,2,0) over(order by userid) group_t from test查询结果如下:RN      ADDRESS     ARRIVAL_TIME         USERID     GROUP_T    ------  ----------  -------------------  ---------  ---------- 1       A1          2012-7-9 下午12:03:21  1          0         (null)  A2          2012-7-9 下午12:04:21  2          0          (null)  A3          2012-7-9 下午12:05:21  3          1        2       A1          2012-7-9 下午12:08:21  4          null          (null)  A2          2012-7-9 下午12:09:21  5          null         (null)  A3          2012-7-9 下午12:10:21  6          2          3       A1          2012-7-9 下午12:13:21  7          null         (null)  A3          2012-7-9 下午12:15:21  8          null                   4       A1          2012-7-9 下午12:18:23  9          3  5       A1          2012-7-9 下午12:19:21  10         null          (null)  A2          2012-7-9 下午12:20:21  11         4(null)  A3          2012-7-9 下午12:21:21  12         5               6       A1          2012-7-9 下午12:23:23  13         null         (null)  A2          2012-7-9 下午12:24:21  14         null

lead

LEAD(col,n,DEFAULT)用于统计窗口内往下第n行值

select  rn,address,arrival_time,userid,lead(rn,2,0) over(order by userid) group_t from test
查询结果如下:RN      ADDRESS     ARRIVAL_TIME         USERID     GROUP_T    ------  ----------  -------------------  ---------  ---------- 1       A1          2012-7-9 下午12:03:21  1          null        (null)  A2          2012-7-9 下午12:04:21  2          2          (null)  A3          2012-7-9 下午12:05:21  3          null        2       A1          2012-7-9 下午12:08:21  4          null          (null)  A2          2012-7-9 下午12:09:21  5          3(null)  A3          2012-7-9 下午12:10:21  6          null          3       A1          2012-7-9 下午12:13:21  7          4(null)  A3          2012-7-9 下午12:15:21  8          54       A1          2012-7-9 下午12:18:23  9          null  5       A1          2012-7-9 下午12:19:21  10         null          (null)  A2          2012-7-9 下午12:20:21  11         6(null)  A3          2012-7-9 下午12:21:21  12         null               6       A1          2012-7-9 下午12:23:23  13         0(null)  A2          2012-7-9 下午12:24:21  14         0

其他窗口函数

cume_dist

这个函数不太常用, 小于等于当前值的行数/分组内总行数

select r, a ,cume_dist() over( order by a  ) col from (
select 'cc' r, 1  a union all select 'aa',2 union all select 'bb', 3
) tr  a       col
>c	1	0.3333333333333333  #1/3
>aa	2	0.6666666666666666  #2/3
>b	3	1                   #3/3

percent_rank

percent_rank :窗口内当前行的RANK值-1/窗口内总行数-1(这里的rank值就是指的是rank 函数的的返回值)

select r, a ,percent_rank() over( order by a  ) col from (
select 'cc' r, 1  a union all select 'aa',2 union all select 'bb', 3
) tr  a       col
>c	1		 0   #1-1/3-1
>aa	2	     5   #2-1/3-1
>b	3	     1   #3-3/3-1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/18609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot笔记:SpringBoot集成Dataway

文章目录 1、什么是 Dataway?2、主打场景3、技术架构4、整合SpringBoot4.1、maven 依赖4.2、初始化脚本4.3、整合 SpringBoot 5、Dataway 接口管理6、Mybatis 语法支持7、小结 1、什么是 Dataway? 官网地址:https://www.hasor.net/docs/guides/quickstart Da…

java 基础

java 中使用对象类型的基础类型好, 还是直接用int double 更好 在Java中,使用对象类型的包装类(如Integer、Double等)还是直接使用基本类型(如int、double等)取决于具体的需求和场景。它们各自有自己的优缺…

k8s kubeadm命令升级集群 从1.17升级到1.18

k8s kubeadm命令升级集群 从1.17升级到1.18 大纲 注意事项master节点执行升级命令master节点和node节点执行命令 注意事项 目标当前线上k8s集群版本是k8s1.17 想把k8s升级到1.18。注意k8s不能跨版本升级例如k8s1.17不能直接升级到k8s1.19,需要先升级到1.18才后向…

faac内存开销较大,为方便嵌入式设备使用进行优化(valgrind使用)

faac内存开销较大,为方便嵌入式设备使用进行优化,在github上提了issues但是没人理我,所以就搞一份代码自己玩吧。 基于faac_1_30版本,原工程https://github.com/knik0/faac faac内存优化: faac内存开销较大,为方便嵌入…

意外:WPS编程新工具,不用编程,excel用户:可以不用VBA啦

来来来,拓宽一下视野! 别总以为excel和WPS只能用VBA编程,也别总是想着ACCESS这些老生常谈的工具。其实对于电子表格高级用户来讲,不会VBA,不用ACCESS,也一样可以解决复杂问题或者高级应用。 尤其是WPS用户…

el-radio编辑选不中和el-tree相关问题

1.解决el-raido选不中的问题 onSelectChange() {this.$forceUpdate();}2.el-tree复选框选中选中的id值 //前提条件node-key"id"<el-tree :data"list" :props"defaultProps" show-checkbox node-key"id" ref"tree" :h…

【腾讯云 Cloud Studio 实战训练营】CloudStudio体验真正的现代化开发方式,双手插兜不知道什么叫对手!

CloudStudio体验真正的现代化开发方式&#xff0c;双手插兜不知道什么叫对手&#xff01; 文章目录 CloudStudio体验真正的现代化开发方式&#xff0c;双手插兜不知道什么叫对手&#xff01;前言出现的背景一、CloudStudio 是什么&#xff1f;二、CloudStudio 的特点三、CloudS…

C/C++中变量按位操作

一、按位写入1 uint32_t writeBit (1 << 5) // 第5位的掩码 uint32_t value 0x12341234; // 设置第5位为1 value | writeBit;原理就是原值与掩码… 00010000进行按位相与&#xff0c;与0相交的位还是等于原来的值&#xff0c;与1相交的位则变为1。 二、按位写入0…

OpenCV弹出窗体设置

使用OpenCV偶尔会用到其弹出窗体来显示图像,大部分情况看看算法处理的结果是够用的。然而有时希望用其作为程序的子窗口显示些不断刷新的信息就存在两个问题: 没有判断用户是否点击关闭窗口的操作,因此哪怕用户点击了关闭,窗体也会一直显示没有设置图标的功能,因此弹出的窗…

PostgreSql 锁

一、概述 在 PostgreSQL 事务中提到&#xff0c;多个用户访问相同数据时可能出现脏读&#xff0c;不可重复度&#xff0c;幻读&#xff0c;更新丢失的问题&#xff0c;为解决这些问题&#xff0c;定义了不同的隔离级别&#xff0c;而隔离级别的具体实现&#xff0c;依靠的就是数…

钉钉群消息推送

1. 添加钉钉群机器人 PC端登录&#xff08;当前版本手机端无法进行推送关键词设置&#xff09;&#xff0c;群设置--> 机器人 --> webhook进行安全设置复制webhook对应的url 2. 群消息推送 钉钉群消息支持纯文本和markdown类型 2.1 调用示例源码 import com.alibaba.…

2021 Robocom 省赛 第四题

原题链接&#xff1a; PTA | 程序设计类实验辅助教学平台 题面&#xff1a; 疫情尚未结束&#xff0c;严防疫情反复。为了做好疫情防控工作&#xff0c;国内设置了地区风险等级&#xff0c;对于中高风险地区的人员采取限制移动、居家隔离等手段。 为了研究疫情防控对于跨地区交…

助你丝滑过度到 Vue3 组合式Api的优势新的组件 ②⑧

作者 : SYFStrive 博客首页 : HomePage &#x1f4dc;&#xff1a; VUE3~TS &#x1f4cc;&#xff1a;个人社区&#xff08;欢迎大佬们加入&#xff09; &#x1f449;&#xff1a;社区链接&#x1f517; &#x1f4cc;&#xff1a;觉得文章不错可以点点关注 &#x1f449;…

2023.08.01 驱动开发day8

驱动层 #include <linux/init.h> #include <linux/module.h> #include <linux/of.h> #include <linux/of_irq.h> #include <linux/interrupt.h> #include <linux/fs.h> #include <linux/gpio.h> #include <linux/of_gpio.h>#…

明日展望:算法备案法规的发展趋势

在数字化日益普遍的世界里&#xff0c;算法在我们生活的各个方面扮演着重要角色&#xff0c;从为我们推荐下一部要看的电影&#xff0c;到决定我们的信贷审批。然而&#xff0c;随着算法的影响力越来越大&#xff0c;关于如何对其进行合理、公正的管理和备案的问题也变得愈发重…

RestTemplate、WebClient与HttpInterface

RestTemplate、WebClient与HttpInterface SpringBoot中集成了很多轻量级的Http客户端 RestTemplate:普通开发WebClient:响应式编程开发HttpInterface:声明式编程 响应式编程介绍 响应式编程&#xff08;Reactive Programming&#xff09;是一种编程范式&#xff0c;用于处理…

如何在免费版 pycharm 中使用 github copilot (chatGPT)?

起因 在 vscode 中使用了 github copilot 以后&#xff0c;感觉这个人工智能还不错。 但 vscode 对于 python 项目调试并不是特别方便&#xff0c;所以想在 Pycharm 中也能使用同一个 github 账号&#xff0c;用上 copilot 的功能。 不需要等待&#xff0c;安装即用&#xff…

【Web 表单】与用户数据打交道-1(mdn笔记)

0. Web 表单指南 我们将介绍 Web 表单的各个方面&#xff1a;HTML 结构、样式、验证表单数据&#xff0c;以及提交数据到服务器。 基本指南 你的第一个表单 第一次创建 HTML 表单的经验&#xff0c;包括设计一个简单表单、使用正确的 HTML 元素实现它、通过 CSS 添加一些非常简…

从vue3速学react

单位老项目vue2,新项目vue3,业务已经熟练使用vue了&#xff0c;空余时间自学下react&#xff0c;写个博客记录下 react没有双向绑定&#xff0c;用的是jsx语法&#xff0c;useState后面是初始化值&#xff0c;需要改变data的时候&#xff0c;需要用定义的setXXX来改变XXX值&am…

【Spring Cloud一】微服务基本知识

系列文章目录 微服务基本知识 系列文章目录前言一、系统架构的演变1.1单体架构1.2分层架构1.3分布式架构1.4微服务架构1.5分布式、SOA、微服务的异同点 二、CAP原则三、RESTfulRESTful的核心概念&#xff1a; 四、共识算法 前言 在实际项目开发过程中&#xff0c;目前负责开发…