hive 窗口函数_Datatist科技专栏 | Hive排序窗口函数速学教程!

ec3a06bc0dd14bece0d3d918fd9922a4.png

作者:原上野

设计:Cindy

编辑:AI君

在开发过程中经常会遇见排序的场景,比如取top N的问题,这时候row_number(),rank,dense_ran()这三个函数就派上用场了,其中,row_number()最为常用。

虽然都可以排序,但是他们之间还有点细微的区别,具体的差异请参阅下面的实例;本文除了这三个函数外,还简单介绍了下NTILE() over()这个函数。

开始之前先在hive准备一张表dw_table_test,数据如下:

3b5b7185c3ce2a1a501cad051d27ad42.png

1

row_number() over()

(a) row_number() over()分组排序功能

注意:在使用 row_number() over()函数时候,over()里的分组以及排序的执行晚于 where group by order by 的执行。

partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方在于它能够返回一个分组中的多条记录,而聚合函数一般只有一个反映统计值的记录。

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url, pv,row_number() over(partition by url order by pv desc) as rn from dw_table_test;

结果:

7e67ae14de834899849c0de99463700a.png

(b)row_number() over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url, pv,row_number() over(order by pv desc) as rn from dw_table_test;

结果:

80838ebb03126e5b78eb5d687be12a1a.png

2

rank() over()

rank() over()是跳跃排序,有两个第二名时接下来就是第四名。

(a)rank() over()分组排序功能

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url,pv,rank() over(partition by url order by pv desc) as rn From dw_table_test;

结果:

087333449c6679bdbbf512632e6e1284.png

(b) rank() over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url,pv,rank() over(order by pv desc) as rn From dw_table_test;

结果:

cf7ac2f1a22ca5f2ba8b6e968577ba17.png

3

dense_rank() over()

dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名,而row_number是没有重复值的。

(a)dense_rank () over()分组排序功能

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url,pv, dense_rank() over(partition by url order by pv desc) as rn from dw_table_test;

结果:

edfa3454540f6ec0c5b59a9e57b6ef73.png

(b)dense_rank () over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url,pv, dense_rank() over(order by pv desc) as rn from dw_table_test;

结果:

afc893b8ccb3c803bd829d58336dbb4d.png

4

NTILE() over()

NTILE(n),属于分析函数,用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布。

(a)NTILE() over()有分组

如下例子,根据url进行分组,按照pv从高到低排序将数据拆成两份

Sql:select url,pv,NTILE(2) over(partition by url order by pv desc ) as rn from dw_table_test;

结果:

7c6ac77324788c65781a550589606ad0.png

(b)NTILE() over()无分组

如下例子,按照pv从高到低排序将数据拆成两份

Sql:select url,pv,NTILE(2) over(order by pv desc ) rn from dw_table_test;

结果:

dea85f90b6533dfdcf1e0a6e67d4901a.png

5

总结

通过上面的事例可以很轻易区分它们,以便应用于不同的场景;还有一点需要注意就是:在以上提到的四个窗口函数中,都不支持ROWS BETWEEN/ RANGE BETWEEN, ROWS BETWEEN表示在当前行之间,RANGE BETWEEN表示在当前值范围内;而类似于sum,count这样的聚合函数是可以这样使用,比如下面的实例。

原始数据

Sql:

Select * from dw_table_test order by date_time desc;

0ab51b64330a906d84e79c04c3e93f7c.png

处理后

rows between 1 preceding and 1 following表示在当前行上下一行之间的范围内

sql:select url,date_time,sum(pv) over(order by date_time desc rows between 1 preceding and 1 following) as rn from dw_table_test;

结果:

80ee5ac33920890de8701689a4eb23da.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/435167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

arcgis利用python赋值

、 rec0 def autoIncrement(): global rec pStart 1 pInterval 1 if (rec 0): rec pStart else: rec rec pInterval return rec

人生九度

1.工作方面,能力不敌态度; 2.事业方面,才华不敌韧度; 3.知识方面,广博不敌深度; 4.思想方面,敏锐不敌高度; 5.做人方面,精明不敌气度; 6.做事方面&#xff0c…

platform Builder导出SDK

一、编译好wince系统 二、选择[platform]->[configur SDK],第一次进入的话,会要求输入一些SDK名字等信息。完成后再一次进入才是配置SDK的属性。 三、有几项需要注意的: CPU选项:若是输出仿真器的SDK,这项不要选入…

idea修改代码后没有重新编译_SpringBoot中实现代码修改之后的自动更新与热加载...

在实际的开发过程中,我们经常修改代码之后,手动的重启项目,查看修改效果。那么有没有一种方式能够快速的、自动的帮我们将修改代码自动更新,避免手动重启,从而提高开发效率呢?是有的,对于这个功…

android 从assets和res中读取文件(转)

1. 相关文件夹介绍 在Android项目文件夹里面,主要的资源文件是放在res文件夹里面的。assets文件夹是存放不进行编译加工的原生文件,即该文件夹里面的文件不会像xml,java文件被预编译,可以存放一些图片,html&#xff0c…

WINCE6开机进度条

大致思路,在NBoot或EBoot加开机进度条,由于WINCE启动主要时间都花在读取NK,因此每读取一定的页,就在屏上画一条固定高度的线,并记录画线的位置,下次接着画,直到读取完NK,这样就产生的…

电脑查看wifi密码

右键 打开“网络。。。。。。”

软件oem要注意什么_做化妆品oem,选择化妆品包材要注意什么问题

化妆品企业找厂家做oem,一般厂家都是负责设计研发生产的,但是设计出来的产品包材,就需要找其它的包材厂家去采购了,很多没有经验的品牌商都不清楚找包材要怎么找,好看质量好就可以了吗?韵丽生物科技化妆品代…

等高线转dem

可以自行设置分辨率

ARM指令 LDR 和 ADR的一些区别

LDR 是ARM中的指令,也是伪指令。 当用 LDR r, imd // r 为寄存器, imd为立即数 LDR 是一条伪指令。编译器会根据 立即数的大小,决定用 ldr 指令或者是mov或mvn指令。 当imd能用mov或者mvn操作时,就将它翻译成一条mov或mvn指令。当…

阻塞 cpu占用

请问,windowsxp系统下,有一个线程A,此线程中需要wait一个信号,我有以下观点,请大家帮我判断一下我的观点对不对,谢谢!如果我用阻塞方式,则一旦轮到这个线程执行,os只要发…

登录验证应该是进行在客户端还是服务器端_网站登录认证方式

目前大部分软件系统资源访问都是使用HTTP协议,HTTP是无状态的协议,每次请求默认都是相互独立的。但是大部分情况下我们需要记录请求资源的用户信息,也就是保存会话,从而对资源的访问做限制,这是我们认证功能。常用的认…

arcgis将点的属性赋值给面

例子:将点的编号属性列赋值到对应的面属性

关于application title一直是untitled的问题

建立了一个cocoaapplication项目,在Interface Builder中修改了title,在运行时标题始终是“Untitled”。这是我在http://stackoverflow.com/questions/4720030/cocoa-mac-application-title-says-untitled上找的解决方法。I have created a document base…

python 中文apichm_python api 中文 chm

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

arcgis投影数据计算度分秒

原始数据投影坐标系 1.先将图层坐标改为地理坐标系 2.添加字段必须是文本类型,否则计算不出度分秒的形式,只显示十进制 错误示例(字段类型为双精度) 正确示例(字段类型为文本类型)

Js实现异步刷新(原创)

看了ajax的一些资料,稍微学到了一点东西,于是写出来与大家分享,由于读的资料比较少和自己的看法可能不全面,再加上自己的拙笔,如果不小心写错,还请大家 谅解 一.ajax理论叙述 ajax并不是一个新技术&#xf…

python压缩算法_LZ77压缩算法编码原理详解(结合图片和简单代码)

前言LZ77算法是无损压缩算法,由以色列人Abraham Lempel发表于1977年。LZ77是典型的基于字典的压缩算法,现在很多压缩技术都是基于LZ77。鉴于其在数据压缩领域的地位,本文将结合图片和源码详细介绍其原理。原理介绍:首先介绍几个专…

ARM汇编中的ldr和adr的区别及其在uboot中相关源码的分析

ARM汇编有ldr指令以及ldr、adr伪指令,它们都可以将标号表达式作为操作数,下面通过分析一段代码以及对应的反汇编结果来说明它们的区别。 ldr r0, _start adr r0, _start ldr r0, _start _start: b _start 编译的时候设置 RO 为 0x30000000&#xf…