大数据(4.3)Hive基础查询完全指南:从SELECT到复杂查询的10大核心技巧

目录

      • 背景
      • 一、Hive基础查询核心语法
        • 1. 基础查询(SELECT & FROM)
        • 2. 条件过滤(WHERE)
        • 3. 聚合与分组(GROUP BY & HAVING)
        • 4. 排序与限制(ORDER BY & LIMIT)
      • 二、复杂查询实战技巧
        • 1. 多表关联(JOIN)
        • 2. 子查询(Subquery)
        • 3. 集合操作(UNION & UNION ALL)
        • 4. 窗口函数(ROW_NUMBER)
      • 三、10大实战案例
        • 案例1:查询最新分区数据
        • 案例2:统计每日活跃用户数
        • 案例3:查询销售额最高的商品类别
        • 案例4:分页查询(模拟OFFSET)
        • 案例5:处理NULL值(COALESCE)
        • 案例6:时间范围查询
        • 案例7:正则表达式过滤(RLIKE)
        • 案例8:动态分区插入查询结果
        • 案例9:分桶表JOIN优化
        • 案例10:复杂嵌套查询
      • 四、避坑指南
        • 1. 常见错误
        • 2. 性能优化
        • 3. 数据格式陷阱
      • 五、总结
        • 实践
        • 大数据相关文章(推荐)

背景

在大数据处理中,Hive作为‌基于Hadoop的数据仓库工具‌,通过类SQL语法(HiveQL)实现了对海量数据的便捷分析。掌握Hive基础查询语句是数据工程师的核心技能,涉及以下场景:

  1. 数据筛选‌:通过SELECT、WHERE快速提取目标数据。
  2. 聚合分析‌:利用GROUP BY、HAVING实现数据统计。
  3. 多表操作‌:通过JOIN关联不同数据源,UNION合并数据集。
  4. 结果优化‌:结合分区、分桶设计提升查询性能。

本文将通过‌语法解析、10个实战案例及避坑指南‌,系统讲解Hive基础查询的核心操作。

一、Hive基础查询核心语法

1. 基础查询(SELECT & FROM)
-- 查询所有字段  
SELECT * FROM employee;  -- 查询指定字段并重命名  
SELECT emp_id AS id, emp_name, salary * 0.9 AS tax_salary  
FROM employee;  
2. 条件过滤(WHERE)
-- 数值条件  
SELECT * FROM sales WHERE amount > 1000;  -- 字符串条件(LIKE)  
SELECT * FROM user WHERE name LIKE 'John%';  -- 多条件组合(AND/OR)  
SELECT * FROM logs  
WHERE status = 'ERROR' AND (url LIKE '/api/%' OR url LIKE '/admin/%');  
3. 聚合与分组(GROUP BY & HAVING)
-- 统计每个部门的平均薪资  
SELECT dept_id, AVG(salary) AS avg_salary  
FROM employee  
GROUP BY dept_id  
HAVING AVG(salary) > 5000;  
4. 排序与限制(ORDER BY & LIMIT)
-- 按薪资降序排序,取前10条  
SELECT emp_name, salary  
FROM employee  
ORDER BY salary DESC  
LIMIT 10;  

二、复杂查询实战技巧

1. 多表关联(JOIN)
-- 内连接(获取员工及其部门信息)  
SELECT e.emp_name, d.dept_name  
FROM employee e  
JOIN department d ON e.dept_id = d.dept_id;  -- 左外连接(保留未匹配部门的员工)  
SELECT e.emp_name, d.dept_name  
FROM employee e  
LEFT JOIN department d ON e.dept_id = d.dept_id;  
2. 子查询(Subquery)
-- 查询薪资高于部门平均薪资的员工  
SELECT emp_name, salary  
FROM employee  
WHERE salary > (  SELECT AVG(salary)  FROM employee  GROUP BY dept_id  HAVING dept_id = employee.dept_id  
);  
3. 集合操作(UNION & UNION ALL)
-- 合并两个表的数据(去重)  
SELECT product_id FROM orders_2022  
UNION  
SELECT product_id FROM orders_2023;  -- 合并数据(保留重复)  
SELECT product_id FROM orders_2022  
UNION ALL  
SELECT product_id FROM orders_2023;  
4. 窗口函数(ROW_NUMBER)
-- 按部门分组,为每个员工生成薪资排名  
SELECT emp_name, dept_id, salary,  ROW_NUMBER() OVER (PARTITION BY dept_id ORDER BY salary DESC) AS rank  
FROM employee;  

三、10大实战案例

案例1:查询最新分区数据
SELECT * FROM logs  
WHERE dt = '2023-10-01'  
LIMIT 100;  
案例2:统计每日活跃用户数
SELECT dt, COUNT(DISTINCT user_id) AS active_users  
FROM user_activity  
GROUP BY dt;  
案例3:查询销售额最高的商品类别
SELECT category, SUM(amount) AS total_sales  
FROM sales  
GROUP BY category  
ORDER BY total_sales DESC  
LIMIT 1;  
案例4:分页查询(模拟OFFSET)
SELECT * FROM employee  
ORDER BY emp_id  
LIMIT 10 OFFSET 20;  -- 第3页(每页10条)  
案例5:处理NULL值(COALESCE)
SELECT emp_name, COALESCE(salary, 0) AS salary  
FROM employee;  
案例6:时间范围查询
SELECT * FROM logs  
WHERE log_time BETWEEN '2023-10-01 00:00:00' AND '2023-10-01 23:59:59';  
案例7:正则表达式过滤(RLIKE)
SELECT * FROM user  
WHERE email RLIKE '^[a-zA-Z0-9._%+-]+@gmail\\.com$';  
案例8:动态分区插入查询结果
INSERT INTO TABLE logs_partitioned  
PARTITION (dt)  
SELECT ip, url, dt FROM raw_logs;  
案例9:分桶表JOIN优化
SELECT a.user_id, b.order_amount  
FROM user_bucketed a  
JOIN orders_bucketed b  
ON a.user_id = b.user_id;  
案例10:复杂嵌套查询
SELECT dept_id, emp_name  
FROM employee  
WHERE dept_id IN (  SELECT dept_id  FROM department  WHERE location = 'Shanghai'  
);  

四、避坑指南

1. 常见错误

‌忽略NULL值‌:聚合函数(如COUNT)默认排除NULL,需用COUNT(*)统计所有行。
‌分区过滤失效‌:未在WHERE中指定分区字段导致全表扫描。
‌JOIN数据倾斜‌:大表JOIN小表未使用MapJoin优化,导致性能问题。

2. 性能优化

‌使用分区字段过滤‌:减少数据扫描量。
‌**避免SELECT ***‌:仅查询必要字段,降低IO开销。
‌启用向量化查询‌:SET hive.vectorized.execution.enabled=true;

3. 数据格式陷阱

‌TEXTFILE性能低‌:优先使用ORC/Parquet列式存储。
‌压缩算法选择‌:ORC表推荐使用SNAPPY压缩。

五、总结

查询场景推荐语法优化建议
简单数据筛选SELECT + WHERE结合分区字段过滤
聚合统计GROUP BY + HAVING预聚合中间结果
多表关联JOIN 或 MAPJOIN小表加载到内存
分页查询LIMIT + OFFSET避免深分页(使用ROW_NUMBER)
复杂逻辑子查询或CTE(Common Table Expression)拆分步骤提升可读性
实践
  1. 数据格式‌:优先使用ORC/Parquet存储格式。
  2. 分区设计‌:按时间、地域等业务逻辑分区。
  3. 避免全表扫描‌:在WHERE中明确分区条件。
大数据相关文章(推荐)
  1. 架构搭建:
    中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

  2. 大数据入门:大数据(1)大数据入门万字指南:从核心概念到实战案例解析

  3. Yarn资源调度文章参考:大数据(3)YARN资源调度全解:从核心原理到万亿级集群的实战调优

  4. Hive函数汇总:Hive函数大全:从核心内置函数到自定义UDF实战指南(附详细案例与总结)

  5. Hive函数高阶:累积求和和滑动求和:Hive(15)中使用sum() over()实现累积求和和滑动求和

  6. Hive面向主题性、集成性、非易失性:大数据(4)Hive数仓三大核心特性解剖:面向主题性、集成性、非易失性如何重塑企业数据价值?

  7. Hive核心操作:大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76846.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Synopsys:设计对象

相关阅读 Synopsyshttps://blog.csdn.net/weixin_45791458/category_12812219.html?spm1001.2014.3001.5482 对于Synopsys的EDA工具(如Design Compiler、PrimeTime、IC Compiler)等,设计对象(Design Objects)是组成整个设计的抽象表示&…

【愚公系列】《高效使用DeepSeek》053-工艺参数调优

🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! 👉 江湖人称"愚公搬代码",用七年如一日的精神深耕技术领域,以"…

深度学习篇---模型训练(1)

文章目录 前言一、库导入与配置部分介绍 二、超参数配置简介 三、模型定义1. 改进残差块2. 完整CNN模型 四、数据集类五、数据加载函数六、训练函数七、验证函数八、检查点管理九、主函数十、执行入口十一、关键设计亮点总结1.维度管理2.数据标准化3.动态学习率4.梯度剪裁5.检查…

题解:AT_abc241_f [ABC241F] Skate

一道经典的 bfs 题。 提醒:本题解是为小白专做的,不想看的大佬请离开。 这道题首先一看就知道是 bfs,但是数据点不让我们过: 1 ≤ H , W ≤ 1 0 9 1\le H,W\le10^9 1≤H,W≤109。 那么我们就需要优化了,从哪儿下手…

【含文档+PPT+源码】基于微信小程序的乡村振兴民宿管理系统

项目介绍 本课程演示的是一款基于微信小程序的乡村振兴民宿管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3.该…

STM32定时器通道1-4(CH1-CH4)的引脚映射关系

以下是 STM32定时器通道1-4(CH1-CH4)的引脚映射关系的详细说明,以常见型号为例。由于不同系列/型号差异较大,请务必结合具体芯片的参考手册确认。 一、STM32F1系列(如STM32F103C8T6) 1. TIM1(高级定时器) 通道默认引脚重映射引脚(部分/完全)备注CH1PA8无互补输出CH1…

bge-m3+deepseek-v2-16b+离线语音能力实现离线文档向量化问答语音版

ollama run deepseek-v2:16b ollama pull bge-m3 1、离线听写效果的大幅度提升。50M 1.3G(每次初始化都会很慢)---优化到首次初始化使用0延迟响应。 2、文档问答历史问题处理与优化,文档问答离线策略讨论与参数暴露。 3、离线大模型答复中断…

前端界面在线excel编辑器 。node编写post接口获取文件流,使用传参替换表格内容展示、前后端一把梭。

首先luckysheet插件是支持在线替换excel内容编辑得但是浏览器无法调用本地文件,如果只是展示,让后端返回文件得二进制文件流就可以了,直接使用luckysheet展示。 这里我们使用xlsx-populate得node简单应用来调用本地文件,自己写一个…

JavaScript学习20-Event事件对象

1.属性 即点击谁就打印出来谁 2.方法 未添加stopPropagatio方法: 添加stopPropagatio方法后:

FreeRTOS 启动过程中 SVC 和 PendSV 的工作流程​

在 FreeRTOS 的启动过程中,SVC(Supervisor Call) 和 PendSV(Pendable Service Call) 是两个关键的系统异常,分别用于 首次任务启动 和 任务上下文切换。它们的协作确保了从内核初始化到多任务调度的平滑过渡。以下是详细的工作流程分析(以 ARM Cortex-M 为例): 1. SVC…

[自制调试工具]构建高效调试利器:Debugger 类详解

一、引言 在软件开发的漫漫征程中,调试就像是一位忠诚的伙伴,时刻陪伴着开发者解决代码里的各类问题。为了能更清晰地了解程序运行时变量的状态,我们常常需要输出各种变量的值。而 Debugger 类就像是一个贴心的调试助手,它能帮我…

foobar2000 VU Meter Visualisation 插件汉化版 VU表

原英文插件点此 界面展示 下载 https://wwtn.lanzout.com/iheI22ssoybi 安装方式 解压安装文件,文件名为:foo_vis_vumeter-0.10.2_CHINIESE.fb2k-component

消息中间件对比与选型指南:Kafka、ActiveMQ、RabbitMQ与RocketMQ

目录 引言 消息中间件的定义与作用 消息中间件在分布式系统中的重要性 对比分析的四种主流消息中间件概述 消息中间件核心特性对比 消息传递模型 Kafka:专注于发布-订阅模型 ActiveMQ:支持点对点和发布-订阅两种模型 RabbitMQ:支持点…

liunx输入法

1安装fcitx5 sudo apt update sudo apt install fcitx fcitx-pinyin 2配置为默认输入法 设置-》系统-》区域和语言 点击系统弹出语言和支持选择键盘输入法系统 3设置设置 fcitx-configtool 如果没显示需要重启电脑 4配置fcitx 把搜狗输入法放到第一位(点击下面…

WindowsPE文件格式入门05.PE加载器LoadPE

https://bpsend.net/thread-316-1-1.html LoadPE - pe 加载器 壳的前身 如果想访问一个程序运行起来的内存,一种方法就是跨进程读写内存,但是跨进程读写内存需要来回调用api,不如直接访问地址来得方便,那么如果我们需要直接访问地址,该怎么做呢?.需要把dll注进程,注进去的代码…

QGIS中第三方POI坐标偏移的快速校正-百度POI

1.百度POI: name,lng,lat,address 龙记黄焖鸡米饭(共享区店),121.908315,30.886636,南汇新城镇沪城环路699弄117号(A1区110室) 好福记黄焖鸡(御桥路店),121.571409,31.162292,沪南路2419弄26号1层B间 御品黄焖鸡米饭(安亭店),121.160322,31.305977,安亭镇新源路792号…

SQL的调优方案

一、前言 SQL调优是提升数据库性能的关键手段。需结合索引优化、SQL语句优化、执行计划分析及数据库架构设计等多方面综合处理。 二、索引优化 创建合适索引 高频查询字段:对WHERE、JOIN、ORDER BY涉及的字段创建索引,尤其是区分度高的字段&#xff08…

【项目管理】第一部分 信息技术 1/2

相关文档,希望互相学习,共同进步 风123456789~-CSDN博客 概要 知识点: 现代化基础设施、数字经济、工业互联网、车联网、智能制造、智慧城市、数字政府、5G、常用数据库类型、数据仓库、信息安全、网络安全态势感知、物联网、大数…

【玩泰山派】1、mac上使用串口连接泰山派

文章目录 前言picocom工具连接泰山派安装picocom工具安装ch340的驱动串口工具接线使用picocom连接泰山派 参考 前言 windows上面有xshell这个好用的工具可以使用串口连接板子,在mac上好像没找到太好的工具,只能使用命令行工具去搞了。 之前查找说mac上…

【C++奇遇记】C++中的进阶知识(继承(一))

🎬 博客主页:博主链接 🎥 本文由 M malloc 原创,首发于 CSDN🙉 🎄 学习专栏推荐:LeetCode刷题集 数据库专栏 初阶数据结构 🏅 欢迎点赞 👍 收藏 ⭐留言 📝 如…