Spark SQL 开窗函数row_number的使用

Spark SQL 开窗函数row_number的使用

窗口函数 row_number即为分组取topN

参考文本:                   型号                      类别            销售量/月
小米,手机,250
华为,手机,450
苹果,手机,1000
三星,手机,2500
小米Pro,笔记本,1500
苹果Pro,笔记本,2000
三星Pro,笔记本,4100
华为ProX,笔记本,200
华硕,笔记本,10000
苹果,平板电脑,100
三星,平板电脑,200
华为,平板电脑,300
中兴,平板电脑,400
需求分析 : 根据文本中的类别进行分组,取月销售额的前三名:
代码:
package com.bynear.spark_sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.hive.HiveContext;

import java.util.List;

public class RowNumberWindowFunction {public static void main(String[] args) {SparkConf conf = new SparkConf();
        JavaSparkContext sc = new JavaSparkContext(conf);
        HiveContext hiveContext = new HiveContext(sc.sc());
//        创建销售额表 sales
        hiveContext.sql("drop table if exists sales");
//        hiveContext.sql("create table if not exists sales (product string, category string, revenue BIGINT)
//          row format delimited\\n\" +\n" +
//                "               \"    fields terminated by ','");

        hiveContext.sql("create table if not exists sales (product string, category string, revenue bigint) row format delimited fields terminated by ',' "
        );


        hiveContext.sql("load data inpath" +" 'hdfs://Spark01:9000/zjs/sales.txt' into table sales ");
//
        DataFrame top3SalesDF = hiveContext.sql("select product,category,revenue from (select product, category, revenue, row_number() over (partition by category order by revenue DESC ) rank from sales ) tmp_sales where rank <=3");
        hiveContext.sql("drop table if exists top_sales");
        hiveContext.sql("create table top_sales (product string, category string, revenue bigint) ");

        top3SalesDF.write().mode(SaveMode.Append).insertInto("top_sales");
        List<Row> rows = top3SalesDF.javaRDD().collect();
        for (Row row : rows) {System.out.println(row);
        }top3SalesDF.write().format("json").save("hdfs://Spark01:9000/zjs/JSON");

        sc.close();
    }
}

注意点:文本中尽量使用英文逗号进行分割! 如果在hive库中出现 按照逗号分割之后,每行的结尾出现 NULL, 即为编码的问题!需要将文本转化为UTF-8格式,问题解决。

重点在于SQL语句中的 row_number,查看括弧是否匹配齐全!
在我的集群出现的问题!使用saveASTable方法的时候,集群直接报错!没有办法,只能使用insertInto方法了,但是必须要在代码中,手动去创建一个表,来存储最

终的结果!使用insertInto方法把结果insert到创建好的表中!

问题:为什么在我的集群中,将用例文件上传到 集群上之后,每运行一下Spark命令之后,集群上的用例文本就会被删除掉!该如何解决!

希望大佬们给出解决的方法!
开窗函数格式:* 【 row_number() over (partition by XXX order by XXX) as rank】//起个别名* 注意:rank 从1开始

运行结果:
[中兴,平板电脑,400]
[华为,平板电脑,300]
[三星,平板电脑,200]
[三星,手机,2500]
[苹果,手机,1000]
[华为,手机,450]
[华硕,笔记本,10000]
[三星Pro,笔记本,4100]
[苹果Pro,笔记本,2000]








本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/326079.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2016蓝桥杯省赛---java---A---10(压缩转换)

题目描述 小明最近在研究压缩算法。 他知道&#xff0c;压缩的时候如果能够使得数值很小&#xff0c;就能通过熵编码得到较高的压缩比。 然而&#xff0c;要使数值很小是一个挑战。 最近&#xff0c;小明需要压缩一些正整数的序列&#xff0c;这些序列的特点是&#xff0c;后面…

jquery选择器案例分享

其中选择器都已经注释&#xff0c;需要测试哪个打开注释即可观察效果&#xff01;&#xff01; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title><script type"text/javascript" src"js/j…

量子计算机对人类长寿,科学家称“极端长寿”在未来几十年可能会达到新的里程碑...

原标题&#xff1a;科学家称“极端长寿”在未来几十年可能会达到新的里程碑 来源&#xff1a;cnBeta.COM据外媒报道&#xff0c;人们的平均寿命越来越长&#xff0c;而经历“极端长寿”的人的数量也同样在增加。尽管大多数人活不到100岁&#xff0c;但数据显示&#xff0c;在过…

.NET Framework 4.7发布,支持Windows 10创作者更新

微软刚刚发布了 .NET Framework 4.7&#xff0c;主要是带来了对 Windows 10 “创作者更新” 的支持&#xff0c;开发者们可以通过 Visual Studio 2017 进行最新版 .NET Framework 项目的开发。 .NET Framework 4.7 包含了以下几大改进&#xff1a; 加入对 Windows 10 表格应用…

Spark SQL 中UDF的讲解

Spark SQL 中UDF的讲解 User Define Function, 用户自定义函数,简称UDF,存在与很多组件中。 在使用Sparksql的人都遇到了Sparksql所支持的函数太少了的难处&#xff0c;除了最基本的函数&#xff0c;Sparksql所能支撑的函数很少&#xff0c;肯定不能满足正常的项目使用&#xf…

Redis面试总结

转载自 Redis面试总结 1、什么是Redis? Redis 是一个基于内存的高性能key-value数据库。 (有空再补充&#xff0c;有理解错误或不足欢迎指正) 2、Reids有哪些特点&#xff1f; Redis本质上是一个Key-Value类型的内存数据库&#xff0c;很像memcached&#xff0c;整个数据…

jquery动画与事件案例

代码都已经测试通过&#xff0c;直接打开注释即可看见效果&#xff01; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title><script src"js/jquery-1.8.3.js" type"text/javascript" c…

两路语音 两路计算机数据综合,脉冲编码调制解调实验摘要.doc

2012-2013 第二学期开放实验项目题  目&#xff1a;两路话音&#xff0b;两路计算机数据综合传输系统实验学生姓名专业名称&#xff1a;  电子信息工程指导教师&#xff1a;2013年 5月 20日脉冲编码调制解调实验实验原理(一)基本原理PCM 调制原理框图量化从数学上来看&…

2016蓝桥杯省赛---java---C---10(密码脱落)

题目描述 思路分析 将字符串反转&#xff0c;后寻找到最长子串&#xff0c;然后用字符串长度减去最长字串长度即可。 代码实现 package lanqiao;import java.util.Scanner;public class Main {static int min0,num0;static String str;public static void main(String[] arg…

Java多线程面试问题

转载自 Java多线程面试问题 这篇文章主要是对多线程的面试问题进行总结的&#xff0c;罗列了40个多线程的问题。 1、多线程有什么用&#xff1f; 一个可能在很多人看来很扯淡的一个问题&#xff1a;我会用多线程就好了&#xff0c;还管它有什么用&#xff1f;在我看来&…

Spark SQL UDF2的使用

Spark SQL UDF2的使用继续之前的UDF1进行说明&#xff1a;UDF1博客地址点击打开链接与UDF1的区别在于两个参数&#xff1a;需求&#xff1a; 获取文本中的两个数字 计算每行中数字的和文本&#xff1a;1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 10,10代码&#xff1a;package com.…

使用ElasticSearch,Kibana,ASP.NET Core和Docker可视化数据

原文地址&#xff1a;http://www.dotnetcurry.com/aspnet/1354/elastic-search-kibana-in-docker-dotnet-core-app 想要轻松地通过许多不同的方式查询数据&#xff0c;甚至是从未预料到的方式&#xff1f;想要以多种方式可视化日志&#xff1f;同时支持基于时间、文本和其他类…

计算机辐射对人体影响吗,电脑屏幕辐射对人体的危害怎么解决?

现在不光是从事IT职业的人经常用电脑&#xff0c;普通打工族也时常接触电脑&#xff0c;人们用电脑的时间越来越多&#xff0c;电脑屏幕带来的辐射问题随之而来&#xff0c;工作上班用电脑&#xff0c;下班回家看电视剧、打游戏也用电脑&#xff0c;KTV点歌也用触摸屏辐射&…

第二章jQuery选择器

一、jquery选择器的分类&#xff1a; 1.基本选择器 &#xff08;1&#xff09;标签选择器 $(“h2”).css(“color”,“red”); &#xff08;2&#xff09;类选择器 $(".title").css(“color”,“red”); &#xff08;3&#xff09;ID选择器 $("#title").cs…

2017蓝桥杯省赛---java---A---4(方格分割)

题目描述 思路分析 dfs 题目要求沿着格子的边线剪成两个部分&#xff0c;仔细观察&#xff0c;剪开的边线是关于中心点&#xff08;3&#xff0c;3&#xff09;对称的&#xff0c;于是我们从&#xff08;3&#xff0c;3&#xff09;开始搜索&#xff0c;直到搜到边界则退出。…

这些分布式事务的解决方案,你都知道吗

转载自 这些分布式事务的解决方案&#xff0c;你都知道吗 分布式事务是企业集成中的一个技术难点&#xff0c;也是每一个分布式系统架构中都会涉及到的一个东西&#xff0c;特别是在微服务架构中&#xff0c;几乎可以说是无法避免。 数据库事务 在说分布式事务之前&#x…

如何在多个项目中分离Asp.Net Core Mvc的Controller和Areas

前言 软件系统中总是希望做到松耦合&#xff0c;项目的组织形式也是一样&#xff0c;本篇文章将介绍在ASP.NET CORE MVC中怎么样将Controller与主网站项目进行分离&#xff0c;并且对Areas进行支持。 实践 1.新建项目 新建两个ASP.NET Core Web应用程序&#xff0c;一个命名…

SparkSQL中UDAF案例分析

SparkSQL中UDAF案例分析 1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row; import org.apache.spark.sql.expressions.MutableAggregationBuffer; import org.apache.spark.sql.expressions.UserDefinedAggregateFunction; import org.apache.…

第四章选择结构(二)

一、Switch的结构语法&#xff1a; switch&#xff08;变量&#xff09;{ case 1: //代码 break; case 2: //代码 break; default : //代码 break; } 2.switch&#xff1a;相当于一个开关&#xff0c;后面的括号里面可以是int short byte char 枚举类型 String类型的值 3.case后…

河北省计算机对口高考大纲,河北省普通高等学校对口招生英语考试大纲

河北省普通高等学校对口招生英语考试大纲一、考试范围和考试形式河北省中等职业学校对口升学英语考试以教育部颁布的《中等职业学校英语教学大纲》为依据&#xff0c;以中等职业教育课程改革国家规划教材《英语》为主要参考教材&#xff0c;同时结合我省中等职业学校教学情况进…