Hive的join操作

假设有三张表,结构和数据如下:
-- 创建表 test_a,test_b,test_c
CREATE TABLE test_a(
id int,
name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';--分别导入数据到三个表中
--test_a
1   a1
2   a2
4   a4
--test_b
1   b1
3   b3
4   b4
--test_c
1   c1
4   c4
5   c5
hive只支持等值连接;
不支持非等值的join条件(可以通过其他方式实现,如left outer join),
因为它很难在mapreduce job实现这样的条件.

inner join

-- 内连接,显示两表匹配上的结果.
-- inner join 可以简写为 join
select * from test_a a inner join test_b b on a.id=b.id;

left join

在这里插入图片描述

-- 左外连接,左表数据全显示,右表数据匹配上的显示,未匹配上的显示NULL.
--left join是left outer join的简写
select a.*,b.* from test_a a left join test_b b on a.id=b.id;

right join

在这里插入图片描述

-- 右外连接,右表数据全显示,左表数据匹配上的显示,未匹配上的显示NULL.  
--right join是right outer join的简写
select a.*,b.* from test_a a right join test_b b on a.id=b.id;

full join

在这里插入图片描述

全外连接,相当于left join union right join,包括两个表的join结果(左边有,右边NULL union 右边有,左边NULL)  
-- full join是full outer join的简写
select a.*,b.* from test_a a full outer join test_b b on a.id=b.id;

join的应用

求id相同的所有用户

-- 求出三表中id相同的数据
select a.*,b.name,c.name 
from test_a a 
inner join 
test_b b on a.id=b.id 
inner join 
test_c c on b.id=c.id;

计算新增用户

--思路:
--1.使用右连接列出右表的所有数据; 
--2.通过左表的aid is null筛选除左表也就是以前不存在的数据; 
--3.通过count(1)计算出右表有而左表没有的数据总和(即新增用户数).select count(1) from
(select aid from user_install_status where dt='20141117' group by aid) a
right join
(select aid from user_install_status where dt='20141228' group by aid) b
on b.aid=a.aid where a.aid is null;

笛卡尔积

--笛卡尔积的SQL,是需要避免的查询操作.
select * from test_a inner join test_b;

自连接

-- 顾名思义,就是一张表自己连接自己;
--假设有表ods_self,只有一个字段a【string类型】,数据如下:
2
3
4
--需求:将ods_self表中a字段的值小于等于当前行的值拼接起来,最终得到的结果展示如下:
a b 
3 23 
2 2 
4 234
--解题思路:由于给定的条件就只有ods_self这一张表,所以要想得到结果中一张表有两个字段的效果,就需要ods_self表进行自连接
--第一步:自连接(也可以说是笛卡尔积,cross join 或者 join 不带 on 条件),并且对自连接之后的结果过滤(获取小于等于当前a值的数据)
create table dwd_self as 
select 
m.a as a,
n.a as b
from 
ods_self m
cross join 
ods_self n
where m.a>=n.a;
--第二步:将数据拼接成想要的结果
select
a, 
concat_ws('、',collect_list(b)) as nb
from dwd_self
group by a; 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Vue探索之旅】初识Vue

文章目录 前言 渐进式框架​ 入门案例 完结撒花 前言 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手&#x…

XWiki 服务没有正确部署在tomcat中,如何尝试手动重新部署?

1. 停止 Tomcat 服务 首先,您需要停止正在运行的 Tomcat 服务器,以确保在操作文件时不会发生冲突或数据损坏: sudo systemctl stop tomcat2. 清空 webapps 下的 xwiki 目录和 work 目录中相关的缓存 删除 webapps 下的 xwiki 目录和 work …

angular13 自定义组件全项目都可用 自存

1.定义自定义组件 使用命令创建一个组件 但删除它在你的module里的声明,因为会报错只能引用一次 在本组件中创建一个module文件,引入刚才的组件component.ts import { NgModule } from angular/core; import { CommonModule } from angular/common; im…

[ES] ElasticSearch节点加入集群失败经历分析主节点选举、ES网络配置 [publish_address不是当前机器ip]

背景 三台CentOS 7.6.1虚拟机, 每台虚拟机上启动一个ElasticSearch 7.17.3(下面简称ES)实例 即每台虚拟机上一个ES进程(每台虚拟机上一个ES节点) 情况是: 之前集群是搭建成功的, 但是今天有一个节点一…

函数编辑器调研及设计开发

前言:在产品研发中需要一款可嵌入web开发的代码及函数编辑器,本文从功能,扩展,外观/交互,维护/社区,兼容性,开源与否等方面考虑,进行对比筛选 1、编辑器统计数据 市面上编辑器有很…

Windows电脑使用Docker安装AList网盘神器并配置公网地址打造私人云存储空间

文章目录 前言1. 使用Docker本地部署Alist1.1 本地部署 Alist1.2 访问并设置Alist1.3 在管理界面添加存储 2. 安装cpolar内网穿透3. 固定Alist公网地址 前言 本文和大家分享如何在Windows系统使用Docker本地部署Alist全平台网盘神器,然后结合cpolar内网穿透工具实现…

USE INDEX/FORCE INDEX/IGNORE INDEX使用的好,sql查询速度提升一倍

前言 在实际工作中有些时候数据库的执行就很奇怪,要么不用索引,要么用了错误的索引,那么在这种情况下你就可以考虑使用这些索引提示来纠正数据库的行为。 早期我们有一个表结构定义,上面有 A、B 两个索引。原本按照预期&#x…

SCQA表达模型:让你的表达更具吸引力(2)

一、引言 站在巨人的肩膀上,思维模型是前人智慧结晶,当我们面对相似挑战时,借鉴与模仿这些模型,往往能为我们带来意想不到的结果。 在信息爆炸的时代,如何高效、准确地传达信息成为了人们关注的焦点。SCQA表达模型作为…

网络网络层之(5)IPv6协议

网络网络层之(5)IPv6协议 Author: Once Day Date: 2024年5月12日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文档可参考专栏:通信网络技术_Once-Day…

「JavaEE」多线程案例分析2:实现定时器

🎇个人主页:Ice_Sugar_7 🎇所属专栏:JavaEE 🎇欢迎点赞收藏加关注哦! 实现定时器 🍉简介🍉模拟实现定时器 🍉简介 定时器类似一个闹钟,时间到了之后就会执行…

重生我是嵌入式大能之串口调试UART

什么是串口 串口是一种在数据通讯中广泛使用的通讯接口,通常我们叫做UART (通用异步收发传输器Universal Asynchronous Receiver/Transmitter),其具有数据传输速度稳定、可靠性高、适用范围广等优点。在嵌入式系统中,串口常用于与外部设备进…

MTATLAB--一元线性回归分析

一文让你彻底搞懂最小二乘法(超详细推导) 在进行一元线性回归分析时,使用最小二乘法进行解题,关于最小二乘法具体看上述文章。 数据文件在文章顶部可见,将第一列数据作为自变量x,第二列数据作为应变量y。建…

3款常用的可视化工具Matplotlib、Seaborn和Pandas

大家好,Seaborn 是基于 Matplotlib 的扩展库,Pandas 的可视化功能同样也依赖于 Matplotlib。尽管二者都使用相同的底层图形库,但绘制图表的方法却各有千秋。本文将介绍各种柱状图的绘制,比较 Matplotlib、Pandas 和 Seaborn 在数据…

vulhub靶机struts2环境下的s2-032(CVE-2016-3081)(远程命令执行漏洞)

影响范围 Struts 2.3.19至2.3.20.2、2.3.21至2.3.24.1和2.3.25至2.3.28 当用户提交表单数据并验证失败时,后端会将用户之前提交的参数值使用OGNL表达式%{value}进行解析,然后重新填充到对应的表单数据中。 漏洞搭建 没有特殊要求,请看 (3…

EasyImage2.0 图床源码

EasyImage2.0 是一个简单图床的源码,它支持以下功能: 1. API接口 2. 登录后才能上传图片 3. 设置图片质量 4. 压缩图片大小 5. 添加文字或图片水印 6. 设定图片的宽度和高度 7. 将上传的图片转换为指定的格式 8. 限制上传图片的最小宽度和高度 …

【LangChain学习之旅】—(21)聊天客服机器人的开发(上)

【LangChain学习之旅】—(21)聊天客服机器人的开发(上) “聊天机器人”说明项目的技术实现细节技术实现步骤简述第二步:增加记忆机制第三步:增加检索机制总结“聊天机器人”说明 聊天机器人(Chatbot)是 LLM 和 LangChain 的核心用例之一,很多人学习大语言模型,学习 …

Java入门基础学习笔记19——关系运算符、逻辑运算符

关系运算符: 判断数据是否满足条件,最终会返回一个判断的结果,这个结果是布尔类型的值:true或false。 注意:在java中判断是否相等一定是“”,不要把“”写成“”,“”是赋值表达式。 package c…

社区新零售:家门口的便利与温暖

社区新零售:家门口的便利与温暖 随着都市生活节奏的加快,人们对于便捷、高效的生活方式有了更高的追求。社区新零售,作为零售业的一股新兴力量,正以其独特的魅力,悄然改变着我们的日常生活。 家门口的便利 社区新零…

嵌入式学习第三十三天!(二叉树)

1. 树的概念: 1. 树:由n个结点组成的有限集,有且只有一个根结点(由根结点可以访问后继结点),其他结点只有一个前驱结点,但可以有多个后继结点(一对多)。当n 0时&#xf…

OpenAI 刚刚宣布了 “GPT-4o“ 免费用户开放、通过 API 可用

OpenAI 刚刚宣布了 “GPT-4o”。它可以通过语音、视觉和文本进行推理。 该模型速度提高了 2 倍,价格降低了 50%,比 GPT-4 Turbo 的速率限制高出了 5 倍。 它将对免费用户开放、通过 API 可用。 与 GPT-4 相比,GPT-4o 的速度和额外的编码能力…