Hive 行列转换

在京东众多业务中,促销业务充满了复杂性和挑战性,因为业务的灵活性,很多数据都存储成xml和json格式数据,这就要求下游数据分析师们需要对其做解析后方可使用 。

在众多操作中 ,有一种是需要对数据做行列转换操作。

数据结构:

create external table jd_row_to_column(
jd_id string ,
jd_session string 
);

数据描述:

insert into jd_row_to_column values('0001','01,02,03,04');

1.行转列(对一列数据拆分成多行)

使用函数 lateral view explode(split(column_name, ',')) col_nm

我们对上面表结构的jd_session列按照逗号进行数据拆分

拆分SQL:

selectjd_id,jd_session,session
fromjd_row_to_column lateral view explode(split(jd_session, ',')) ses as session
wherejd_id = '0001';

The result:

 

2.列转行(根据主键,数据合并)

使用函数:concat_ws(',',collect_set(column))  其中 函数collect_set 会对原始数据做去重操作,collect_list 则不会

我们将对上面的结果进行数据合并操作,看看结果是不是满足要求

The SQL:

selectjd_id,jd_session,concat_ws(',', collect_set(session)) as jd_session_v2
from(selectjd_id,jd_session,sessionfromjd_row_to_column lateral view explode(split(jd_session, ',')) ses as sessionwherejd_id = '0001')t
group byjd_id,jd_session ;

The Result :

 

转载于:https://www.cnblogs.com/TendToBigData/p/10501170.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[译] 论 Rust 和 WebAssembly 对源码地址索引的极限优化

原文地址:Oxidizing Source Maps with Rust and WebAssembly原文作者:Nick Fitzgerald译文出自:掘金翻译计划本文永久链接:github.com/xitu/gold-m…译者:D-kylinTom Tromey 和我尝试使用 Rust 语言进行编码&#xff0…

Java WebService 简单实例

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 前言:朋友们开始以下教程前,请先看第五大点的注意事项,以避免不必要的重复操作。 一、准备工作&…

互联网侵入手机逐鹿背后:追求流量变现能力

摘要:小米联合创始人黎万强说,卖出10万台得免速死,卖出百万台算是得到了一张正式入行的门票。小米是一家新创公司,黎万强自己说,原本一无所有,作为原创品牌,它选择了口碑之路,则必须…

java api使用ElastichSearch指南

AggregationBuilders.terms:一段时间内,某个字段取值的数量排名前几的聚合 / ** param startTime 开始的时间* param endTime 结束的时间* param termAggName term过滤* param fieldName 要做count的字段* param top 返回的数量*/ RangeQueryBuilder actionPeriod …

关于JavaScript的数组随机排序

昨天了解了一下Fisher–Yates shuffle费雪耶兹随机置乱算法,现在再来看看下面这个曾经网上常见的一个写法: function shuffle(arr) { arr.sort(function () { return Math.random() - 0.5; }); } 或者使用更简洁的 ES6 的写法: function shu…

通用唯一识别码UUID

UUID是通用唯一识别码(Universally Unique Identifier)的缩写。UUID 的目的,是让分布式系统中的所有元素,都能有唯一的辨识资讯,而不需要透过中央控制端来做辨识资讯的指定。如此一来,每个人都可以建立不与…

java内省机制 + 内省是什么 + 内省实现方式 + 和反射的区别

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 一、内省是什么、实现方式: 内省(Introspector)是Java语言对Bean类属性、事件的一种缺省处理方法。…

百度联合长虹发布第二款云手机 售价900元以下

摘要:【搜狐IT消息】5月15日消息,百度今天宣布联合长虹发布第二款智能手机,采用3.5英寸屏幕、300万像素摄像头,650MHz主频处理器,零售价格在700-899元之间,中国联通将为其提供话费补贴。 【搜狐IT消息】5月…

vmware workstation17环境安装centos7

打开控制面板,搜索“服务”,启动vmware authorize service -------解决无法开启虚拟机问题之无法连接MKS 2.虚拟机硬盘扩展为15G------解决安装centos7时出现的“检查存储配置出错”问题 3.硬盘分区----/boot 300mb(不能小于200mb&#xff0…

博客园中的源代码格式显示

昨天写了一篇文章,但是在写的时候呢,没有注意,直接将代码复制上去了,今天正好有人提醒,看到了格式的混乱,借此记录整理一下,如何能直接粘贴代码,而且格式(缩进&#xff0…

static的使用

类中的静态变量在程序运行期间,其内存空间对所有该类的对象实例而言是共享的,为了节省系统内存开销、共享资源,应该对一些适合使用static的变量声明为静态变量。 变量声明为static的使用场景: (1)变量所…

Linux内核的裁剪和移植

linux内核的裁剪和移植具体都在这个网址里面。https://blog.csdn.net/xie0812/article/details/10816059https://blog.csdn.net/xie0812/article/details/10821779转载于:https://blog.51cto.com/13401435/2145947

李开复唱衰互联网手机:大部分公司会失败

摘要:互联网企业和手机制造企业之间巨大的鸿沟也被李开复鲜明地指出来:“两个产业差别巨大,企业基因不同。”百度此前也坦诚表示,与长虹合作的千元机,主要是针对2000元以下的用户体验,不能与四五千元的苹果…

【POJ】3268 Silver Cow Party

题目链接:http://poj.org/problem?id3268 题意 :有N头奶牛,M条单向路。X奶牛开party,其他奶牛要去它那里。每头奶牛去完X那里还要返回。去回都是走的最短路。现在问这里面哪头奶牛走的路最长。 题解:对每个奶牛i与X做…

java.util.ConcurrentModificationException异常分析

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Java在操作ArrayList、HashMap、TreeMap等容器类时,遇到了java.util.ConcurrentModificationException异常。以ArrayList为例…

redis基本数据类型之String

redis基本数据类型之String redis一共分为5中基本数据类型:String,Hash,List,Set,ZSet String String类型是包含很多种类型的特殊类型,并且是二进制安全的。比如序列化的对象进行储存,比如一张图片进行二进制储存,比如一个简单…

Laravel5.5之事件监听、任务调度、队列

一、事件监听 流程: 1.1 创建event php artisan make:event UserLogin LoginController.php /*** The user has been authenticated.** param \Illuminate\Http\Request $request* param mixed $user* return mixed*/protected function authenticated(Request …

朱江洪功成身退 朱董配解体谁主格力(图)

摘要:中国家电营销委员会副理事长洪仕斌向时代周报记者表示:“朱江洪和董明珠已经完成了他们在格力发展前二十年的使命。“朱董配”解体之后,有人质疑格力“技术营销”的格局必将被打破,难以延续,“董氏班底”与朱江洪…

一些dos下简单命令

(1)切换盘符 d: 回车 (2)显示某目录下的所有文件或者文件夹(掌握) dir 回车 (3)创建文件夹 md 文件夹名称 回车 (4)删除文件夹 rd 文件夹名称 回车 (5)进入目录(掌握) 单级进入 cd 目录名称 多级进入 cd 目录名称1\目录名称2\... (6)回退目录(掌握) 单级回退 cd.. …

ssh服务器拒绝了密码 请再试一次 Xftp5连接失败

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 我的情况都很简单: 第一回主机 ip 不对, 第二次 是账号、密码都不对。 最后 IP、账号、密码都对了 就连上了。