HQL写topN、Spark写topN

HQL写topN用窗口函数rank() 、row_number()、dense_rank()

1、rank(),跳跃排序,假如第一第二相同,那么第三个就是3

select 
* 
from(
select 
id,
cn,
score,
rank() over(partition by id order by score desc)as ranks from top
N
) A 
where ranks<5;

在这里插入图片描述

2、row_number()

select 
* 
from(
select 
id,
cn,
score,
row_number() over(partition by id order by score desc)as ranks from top
N
) A 
where ranks<5;

在这里插入图片描述

3、dense_rank(),假如第一第二相同,那么第三个就是2

select 
* 
from(
select 
id,
cn,
score,
dense_rank() over(partition by id order by score desc)as ranks from top
N
) A 
where ranks<5;

在这里插入图片描述

Spark写topN

(1)按照key对数据进行聚合(groupByKey)
(2)将value转换为数组,利用scala的sortBy或者sortWith进行排序(mapValues)数据量太大,会OOM。

1	数学	100
1	语文	99
1	英语	80
1	物理	99
2	数学	99
2	语文	80
2	英语	10
2	物理	99
3	数学	100
3	语文	79
3	英语	79
3	物理	80
package spark01import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object topN {def main(args : Array[String]) : Unit = {val conf = new SparkConf().setAppName("topN").setMaster("local[*]")val sc = new SparkContext(conf)val linesRDD: RDD[String] = sc.textFile("D:\\薛艳春\\桌面\\大数据\\Spark\\topn.txt")val lineRDD : RDD[(Int, (String, Int))] = linesRDD.map(lines => {val strings : Array[String] = lines.split("\t")Tuple2(strings(0).toInt, Tuple2(strings(1), strings(2).toInt))})val groupByKeyRDD: RDD[(Int, Iterable[(String, Int)])] = lineRDD.groupByKey(1) //这里不把分区为1输出会出错乱val reduceRDD : RDD[(Int, List[(String, Int)])] = groupByKeyRDD.map(css => {val key : Int = css._1val value : Iterable[(String, Int)] = css._2val list : List[(String, Int)] = value.toList.sortWith(_._2>_._2).take(3)   //注意排序比较用的是Int型,一开始用的String找了好久错误(key, list)})reduceRDD.foreach(v=>{print(v._1+":")v._2.foreach(println)})sc.stop()}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】Dynamics 365 CRM 开发架构简介

目录 概览 名词解释连接到Dynamics 365 CRM Web APIOrganization service选择 - Web API vs. Organization service扩展服务端扩展应用端正文 Dynamics 365 CRM提供了多种编程模型&#xff0c;你可以灵活地按需选用最佳模式。 本文是对Dynamics 365 CRM编程模型的综述。 回…

查找算法-(顺序查找、二分查找、插值查找、斐波那契查找)

1&#xff09;顺序查找或叫线性查找 就是顺序遍历匹配 2&#xff09;二分查找 package search;public class BinarySearch {/*** 二分查找数组必须有序*//**** param arr 数组* param left 左边索引* param right 右边索引* param findVal 要查找的值* return 找到就返回&…

数据结构 - 哈希表(用数组+链表实现存储员工信息,添加增删查功能)

package hashtab;import java.util.Scanner;public class HashTabDemo {public static void main(String[] args) {//创建一个hashTabHashTab hashTab new HashTab(7);//写一个简单菜单来测试String key "";Scanner sc new Scanner(System.in);while (true){Syste…

数据结构 - 树(二叉树的 前序、中序、后序 遍历)

二叉树遍历&#xff08;前序中序后序&#xff0c;主要是看父节点的输出顺序&#xff09; package tree;public class BinaryTreeDemo {public static void main(String[] args) {//先需要创建一颗二叉树BinaryTree binaryTree new BinaryTree();//创建需要的节点HeroNode root…

【转】c# 操作webservice(经典入门教程+MSDN必胜)(有自己修改的部分)

Web Service基本概念 Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统中传递过来的请求&#xff0c;轻量级的独立的通讯技术。是:通过SOAP在Web上提供的软件&#xff08;服务&#xff09;&#xff0c;使用WSDL文件进行&#xff0…

数据结构 - 二叉树(前序中序后序查找)

public static int i 1, j 1, k 1;//编写前序查找方法public HeroNode preOrderSearch(int no){System.out.println("前序遍历"(i)"次");if (this.no no){return this;}HeroNode heroNode null;if (this.left ! null){heroNode this.left.preOrderSea…

数据结构 - 二叉树(删除节点)

因为二叉树是单向的&#xff0c;所以要判断当前节点的子节点(左或右)是否是被删除的节点 //递归删除节点//规定&#xff1a;如果是叶子节点就删除节点&#xff0c;如果非叶子节点就删除子树public void delNode(int no){if (this.left !null && this.left.no no){this…

【转】OData – the best way to REST–实例讲解ASP.NET WebAPI OData (V4) Service Client

一、概念介绍 1.1&#xff0c;什么是OData&#xff1f; 还是看OData官网的简单说明&#xff1a; An open protocol to allow the creation and consumption of queryable and interoperable RESTful APIs in a simple and standard way. 这是一个开放的数据查询和服务协议&…

数据结构 - 顺序存储二叉树(前序中序后序遍历)

就是逻辑上是二叉树&#xff0c;物理上是一个数组 需求 package tree;public class ArrayBinaryTreeDemo {public static void main(String[] args) {int arr [] {1, 2, 3, 4, 5, 6, 7};ArrayBinaryTree arrayBinaryTree new ArrayBinaryTree(arr);//arrayBinaryTree.preOrde…

【转】WCF Data Service 使用小结 (一)—— 了解OData协议

最近做了一个小项目&#xff0c;其中用到了 WCF Data Service&#xff0c;之前是叫 ADO.NET Data Service 的。关于WCF Data Service&#xff0c;博客园里的介绍并不多&#xff0c;但它确实是个很好的框架。可以很方便地通HTTP来访问数据库&#xff0c;如果你是做富客户端开发的…

数据结构 - 线索化二叉树(线索化与遍历)

!!(这里我debug很久才理解过来)** 这里8的前驱为null&#xff0c;所以8的leftType1&#xff0c;但是6是没有后继的或者说后继为null但是rightType为0(因为后继是在下一个节点来进行连接的&#xff0c;6没有下一个节点&#xff0c;所以不能实现后继的线索化&#xff0c;所以righ…

【转】WCF Data Service 使用小结(二) —— 使用WCF Data Service 创建OData服务

在 上一章 中&#xff0c;介绍了如何通过 OData 协议来访问 OData 服务提供的资源。下面来介绍如何创建一个 OData 服务。在这篇文章中&#xff0c;主要说明在.NET的环境下&#xff0c;如何使用 WCF Data Service 来创建OData服务。当然&#xff0c;对于 JAVA 或者其它平台&…

算法 - 堆排序(大顶堆、小顶堆)

用的是顺序存储二叉树&#xff0c;也就是数组实现的二叉树&#xff0c;遍历的时候按照的是二叉树的形式 代码实现 package tree;import java.util.Arrays;public class HeapSort {public static void main(String []args){int [] arr {4, 6, 8, 5, 9,-1,-1,2,4,5,6,88};heapS…

【转】WCF Odata 开放数据协议应用

OData简介 说起 WCF Data Service &#xff0c;不得不说的是 OData。对于一个标准的 Web 服务&#xff0c;它往往会提供了一些功能&#xff0c;比如说&#xff1a;订货、退货这些&#xff0c;然后使用者通过HTTP协议来使用这些功能。这是面向服务的基本思想&#xff0c;然而面…

数据结构 - 赫夫曼树

wpl最小的就是赫夫曼树(所有叶子节点的带权路径长度之和最小) 写出来两个节点连接&#xff0c;然后循环就可以了 package tree.huffmantree;import java.util.ArrayList; import java.util.Collections; import java.util.List;public class huffmanTree {public static void …

算法 - 赫夫曼编码(对字符串进行压缩 与 解压(解码)) - (对文件进行压缩解压)

1.压缩&#xff1a;使用赫夫曼编码进行压缩 题目 构建赫夫曼树 package tree.huffmantree;import java.util.*;public class HuffmanCode {public static void main(String[] args) {String content "i like like like java do you like a java";byte [] contentBy…

【转】Dynamics 365 Customer Engagement中插件的调试

微软动态CRM专家罗勇 &#xff0c;回复319或者20190319可方便获取本文&#xff0c;同时可以在第一间得到我发布的最新博文信息&#xff0c;follow me&#xff01;我的网站是 www.luoyong.me 。 本文主要根据官方的教程 Tutorial: Debug a plug-in 而写&#xff0c;使用的环境是…

数据结构 - 二叉排序树BST(创建、遍历、删除节点)

数组与链表区别&#xff1a; 二叉排序树的创建和遍历 代码实现 package tree.binarysorttree;public class BinarySortTreeDemo {public static void main(String []args){int [] arr {7,3,10,12,5,1,9};BinarySortTree binarySortTree new BinarySortTree();//循环添加节点…

【转】Dynamics 365中开发和注册插件介绍

是微软Dynamics 365 & Power Platform方面的工程师罗勇&#xff0c;也是2015年7月到2018年6月连续三年Dynamics CRM/Business Solutions方面的微软最有价值专家(Microsoft MVP)&#xff0c;欢迎关注我的微信公众号 MSFTDynamics365erLuoYong &#xff0c;回复380或者201911…

数据结构- 平衡二叉树AVL树(左旋、右旋、双旋转)

第三棵树根节点的左子树高度为3右子树高度为1&#xff0c;相差为2大于1&#xff0c;所以不是平衡二叉树 //左旋转方法private void leftRotate(){//创建新的节点,以当前根节点的值Node newNode new Node(value);//把新的节点的左子树设置成当前节点的左子树newNode.left …