hive 窗口函数_Datatist科技专栏 | Hive排序窗口函数速学教程!

ec3a06bc0dd14bece0d3d918fd9922a4.png

作者:原上野

设计:Cindy

编辑:AI君

在开发过程中经常会遇见排序的场景,比如取top N的问题,这时候row_number(),rank,dense_ran()这三个函数就派上用场了,其中,row_number()最为常用。

虽然都可以排序,但是他们之间还有点细微的区别,具体的差异请参阅下面的实例;本文除了这三个函数外,还简单介绍了下NTILE() over()这个函数。

开始之前先在hive准备一张表dw_table_test,数据如下:

3b5b7185c3ce2a1a501cad051d27ad42.png

1

row_number() over()

(a) row_number() over()分组排序功能

注意:在使用 row_number() over()函数时候,over()里的分组以及排序的执行晚于 where group by order by 的执行。

partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方在于它能够返回一个分组中的多条记录,而聚合函数一般只有一个反映统计值的记录。

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url, pv,row_number() over(partition by url order by pv desc) as rn from dw_table_test;

结果:

7e67ae14de834899849c0de99463700a.png

(b)row_number() over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url, pv,row_number() over(order by pv desc) as rn from dw_table_test;

结果:

80838ebb03126e5b78eb5d687be12a1a.png

2

rank() over()

rank() over()是跳跃排序,有两个第二名时接下来就是第四名。

(a)rank() over()分组排序功能

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url,pv,rank() over(partition by url order by pv desc) as rn From dw_table_test;

结果:

087333449c6679bdbbf512632e6e1284.png

(b) rank() over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url,pv,rank() over(order by pv desc) as rn From dw_table_test;

结果:

cf7ac2f1a22ca5f2ba8b6e968577ba17.png

3

dense_rank() over()

dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名,而row_number是没有重复值的。

(a)dense_rank () over()分组排序功能

如下例子,根据每url进行分组,按照pv从高到低排序

Sql:select url,pv, dense_rank() over(partition by url order by pv desc) as rn from dw_table_test;

结果:

edfa3454540f6ec0c5b59a9e57b6ef73.png

(b)dense_rank () over()无分组排序

如下例子,按照pv从高到低排序

Sql:select url,pv, dense_rank() over(order by pv desc) as rn from dw_table_test;

结果:

afc893b8ccb3c803bd829d58336dbb4d.png

4

NTILE() over()

NTILE(n),属于分析函数,用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布。

(a)NTILE() over()有分组

如下例子,根据url进行分组,按照pv从高到低排序将数据拆成两份

Sql:select url,pv,NTILE(2) over(partition by url order by pv desc ) as rn from dw_table_test;

结果:

7c6ac77324788c65781a550589606ad0.png

(b)NTILE() over()无分组

如下例子,按照pv从高到低排序将数据拆成两份

Sql:select url,pv,NTILE(2) over(order by pv desc ) rn from dw_table_test;

结果:

dea85f90b6533dfdcf1e0a6e67d4901a.png

5

总结

通过上面的事例可以很轻易区分它们,以便应用于不同的场景;还有一点需要注意就是:在以上提到的四个窗口函数中,都不支持ROWS BETWEEN/ RANGE BETWEEN, ROWS BETWEEN表示在当前行之间,RANGE BETWEEN表示在当前值范围内;而类似于sum,count这样的聚合函数是可以这样使用,比如下面的实例。

原始数据

Sql:

Select * from dw_table_test order by date_time desc;

0ab51b64330a906d84e79c04c3e93f7c.png

处理后

rows between 1 preceding and 1 following表示在当前行上下一行之间的范围内

sql:select url,date_time,sum(pv) over(order by date_time desc rows between 1 preceding and 1 following) as rn from dw_table_test;

结果:

80ee5ac33920890de8701689a4eb23da.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/435167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

arcgis利用python赋值

、 rec0 def autoIncrement(): global rec pStart 1 pInterval 1 if (rec 0): rec pStart else: rec rec pInterval return rec

idea修改代码后没有重新编译_SpringBoot中实现代码修改之后的自动更新与热加载...

在实际的开发过程中,我们经常修改代码之后,手动的重启项目,查看修改效果。那么有没有一种方式能够快速的、自动的帮我们将修改代码自动更新,避免手动重启,从而提高开发效率呢?是有的,对于这个功…

WINCE6开机进度条

大致思路,在NBoot或EBoot加开机进度条,由于WINCE启动主要时间都花在读取NK,因此每读取一定的页,就在屏上画一条固定高度的线,并记录画线的位置,下次接着画,直到读取完NK,这样就产生的…

电脑查看wifi密码

右键 打开“网络。。。。。。”

软件oem要注意什么_做化妆品oem,选择化妆品包材要注意什么问题

化妆品企业找厂家做oem,一般厂家都是负责设计研发生产的,但是设计出来的产品包材,就需要找其它的包材厂家去采购了,很多没有经验的品牌商都不清楚找包材要怎么找,好看质量好就可以了吗?韵丽生物科技化妆品代…

等高线转dem

可以自行设置分辨率

登录验证应该是进行在客户端还是服务器端_网站登录认证方式

目前大部分软件系统资源访问都是使用HTTP协议,HTTP是无状态的协议,每次请求默认都是相互独立的。但是大部分情况下我们需要记录请求资源的用户信息,也就是保存会话,从而对资源的访问做限制,这是我们认证功能。常用的认…

arcgis将点的属性赋值给面

例子:将点的编号属性列赋值到对应的面属性

arcgis投影数据计算度分秒

原始数据投影坐标系 1.先将图层坐标改为地理坐标系 2.添加字段必须是文本类型,否则计算不出度分秒的形式,只显示十进制 错误示例(字段类型为双精度) 正确示例(字段类型为文本类型)

arcgis裁剪后发现部分矢量缺失

解决办法 1.先修复几何 2.再进行裁剪 修复几何 修复的内容如下

arcgis快速创建斜坡单元剖面线

本教程做出的剖面只能用作参考,实际工作中需要进行修改 一、数据: 1.斜坡单元 DEM 步骤 利用DEM做出坡向2.提取斜坡单元内部点数据 提取斜坡单元边界线数据 提取坡向数据至点属性 3.给带有剖面点的数据添加xy坐标字段,数据类型选择数值型 添…

mapgis转arcgis数据后发现属性表内没有数据

示例: 编辑点属性结构 将注释赋为属性

分享50款非常漂亮的桌面壁纸

我喜欢根据季节更换桌面壁纸,换上一张清爽的桌面壁纸,心情也会变得舒畅。所以,今天我为大家收集了一批夏天壁纸,虽然夏天还未到来,不过这些壁纸真的非常漂亮,尽情欣赏吧。 (编译来源&#xff1a…

获取字段 命名空间和类_系统架构之命名规范

数据库设计规范表设计规范表名全部小写,单词间通过_间隔主键命名为id,类型为Long,长度为20位,非自增2. 外键及索引命名规范唯一索引:ux_表名_索引字段。如:ux_resource_code普通索引:ix_表名_索…

arcgis创建剖面线execl文件

如何快速创建剖面线,参考https://blog.csdn.net/qq_39397927/article/details/118730100 由于创建完的剖面线不带有野外编号,所以我们需要进行空间连接,因为斜坡单元转点后的数据是具有编号,所以进行空间连接将斜坡编号赋值给剖面…

arcgis计算地形起伏度

不懂的方面请进群询问

由于在客户端检测到一个协议错误_TLS协议的分析

TLS概述TLS(传输层安全性)协议基于SSL(安全套接字层)协议,该协议最初由Netscape开发,用于增强Internet上的电子商务安全性。SSL是在应用程序级实现的,直接位于TCP(传输控制协议&…

利用envi对landsat8数据进行处理

envi5.3打开landsat头文件数据有问题 应用商店插件下载链接附有安装教程 envi应用商店.zip_envi商店-互联网文档类资源-CSDN下载 需要在应用商店下载对应工具 点击下载好的工具 此处点击完后直接在envi最上面open文件landsat头文件 选择波段加载影像 进行辐射定标 选择多光谱…

利用arcgis对斜坡单元批量后处理

之前作者利用arcgis自定义工具箱创建了利用dem生成斜坡单元的工具箱,工具箱下载链接如下 ArcGIS自动生成斜坡单元_arcgis生成斜坡单元,arcgis斜坡单元-互联网文档类资源-CSDN下载 在前几天用户使用过程中出现了一些问题 发现工作空间还是作者电脑路径 需要将此取…