Hive核心优化

数据采样

        分桶表概述:

                分桶就是分文件, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)

        如何向桶表添加数据

        创建一个分桶表

create table 表名(字段 类型,....
)
clustered by(分桶字段) [sorted by (字段 [asc | desc])] into N buckets   
-- 定义分桶表核心语句
row format......

        添加数据

insert into|overwrite + select 将数据添加到桶表
现有一个文本文件数据, 需要加载到分桶表,如何解决呢? 第一步: 基于桶表创建一张临时表, 此表和桶表保持相同字段, 唯一区别, 当前这个表不是一个桶表第二步: 将数据先加载到这个临时表中第三步: 基于临时表, 使用 insert into|overwrite + select 将数据添加到桶表
注:在CDH中默认开启了一个参数, 是禁止采用load data方式向桶表添加数据的:  set hive.strict.checks.bucketing = true;
        桶表的作用

                1.进行数据采样工作

                    当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行,  需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试
                    校验数据的可行性(质量校验)
                    进行统计分析的时候, 并不需要统计出具体的指标, 可能统计的都是一些相对性指标, 比如说一些比率(合格率)问题, 此时可以通过采样处理

                2.提升查询的效率

                    可以减少JOIN次数, 从而提升效率

        如何采样
采样函数: tablesample(bucket x out of y [on column])
使用位置:紧紧跟在表名的后面, 如果表名有别名, 必须放置别名的前面
说明:x: 从第几个桶开始进行采样; y: 抽样比例; column: 分桶的字段, 可以省略
注意:1. x 不能大于 y; 2. y 必须是表的分桶数量的倍数或者因子
案例:1) 假设 A表有10个桶, 请分析, 下面的采样函数, 会将那些桶抽取出来呢?
tablesample(bucket 2 out of 5 on xxx)
共计抽取2个桶, 分别是 1号桶和6号桶2) 假设 A 表有20个桶, 请分析, 下面的抽样函数, 会将那些桶抽取出来呢?
tablesample(bucket 4 out of 4 on xxx)
共计抽取5个桶, 分别是 3,7,11,15,19
tablesample(bucket 8 out of 40 on xxx)
抽取二分之一个桶, 分别是7号桶二分之一

join 优化

        Map Join

                Map Join: 每一个mapTask在读取数据的时候, 每读取一条数据, 就会和内存中班级表数据进行匹配, 如果能匹配的上, 将匹配上数据合并在一起, 输出即可

                好处: 将原有reduce join 问题全部都可以解决
                弊端: 
                    1. 比较消耗内存
                    2. 要求整个 Join 中, 必须的都有一个小表, 否则无法放入到内存中
仅适用于: 小表 join 大表 | 大表 join 小表   

        配置:

set hive.auto.convert.join=true; 
-- 开启 map join的支持  默认值为True
set hive.auto.convert.join.noconditionaltask.size=20971520; 
-- 设置 小表数据量的最大阈值: 默认值为 20971520(20M)
        Bucket Map Join

                适用场景: 中型表  和 大表  join: 
                使用条件: 
                    1- Join两个表必须是分桶表
                    2- 开启 Bucket Map Join 支持:  set hive.optimize.bucketmapjoin = true;
                    3- 一个表的分桶数量是另一个表的分桶数量的整倍数
                    4- 分桶列 必须 是 join的ON条件的列
                    5- 必须建立在Map Join场景中(中型表是小表的3倍, 此时分至少3个桶)

        SMB Join

                适用场景: 大表 和 大表 join
                使用条件: 
                    1- 两个表必须都是分桶表
                    2- 开启 SMB Join 支持:  

​
set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.auto.convert.sortmerge.join.noconditionaltask=true;

                   3- 两个表的分桶的数量是一致的
                   4- 分桶列 必须是 join的 on条件的列, 同时必须保证按照分桶列进行排序操作

-- 开启强制排序
set hive.enforce.sorting=true;-- 在建分桶表使用: 必须使用sorted by()

                   5-  应用在Bucket Map Join 场景中

-- 开启 bucket map join
set hive.optimize.bucketmapjoin = true; 

                   6- 必须开启HIVE自动尝试使用SMB 方案: 

set hive.optimize.bucketmapjoin.sortedmerge = true;

HIVE的索引

        Row Group Index索引
条件: 1) 要求表的存储类型为ORC存储格式2) 在创建表的时候, 必须开启 row group index 索引支持'orc.create.index'='true'3) 在插入数据的时候, 必须保证需求进行索引列, 按序插入数据
适用于: 数值类型的, 并且对数值类型进行 >  <  = 操作
思路: 插入数据到ORC表后, 会自动进行划分为多个script片段, 每个片段内部, 会保存着每个字段的最小, 最大值, 这样, 当执行查询 > < = 的条件筛选操作的时候, 根据最小最大值锁定相关的script片段, 从而减少数据扫描量, 提升效率
操作: CREATE TABLE lxw1234_orc2 (字段列表 ....) stored AS ORC TBLPROPERTIES ( 'orc.compress'='SNAPPY', -- 开启行组索引 'orc.create.index'='true' )插入数据的时候, 需要保证数据有序的insert overwrite table lxw1234_orc2SELECT  id, pcid FROM lxw1234_text -- 插入的数据保持排序(可以使用全局排序, 也可以使用局部排序, 只需要保证一定有序即可, 建议使用局部排序 插入数据效率高一些, 因为全局排序只有一个reduce) DISTRIBUTE BY id sort BY id;
使用: set hive.optimize.index.filter=true; SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 1382 AND id <= 1399;
        Bloom Fliter Index索引
条件: 1) 要求表的存储类型为 ORC存储方案2) 在建表的饿时候, 必须设置为那些列构建布隆索引3) 仅能适合于等值过滤查询操作
思路: 在开启布隆过滤索引后, 可以针对某个列, 或者某几列来建立索引, 构建索引后, 会将这一列的数据的值存储在对应script片段的索引信息中, 这样当进行 等值查询的时候, 首先会到每一个script片段的索引中, 判断是否有这个值, 如果没有, 直接跳过script, 从而减少数据扫描量, 提升效率
操作:  CREATE TABLE lxw1234_orc2 (字段列表....)stored AS ORC TBLPROPERTIES ( 'orc.compress'='SNAPPY', -- 开启 行组索引 (可选的, 支持全部都打开, 也可以仅开启一个)'orc.create.index'='true', -- pcid字段开启BloomFilter索引 'orc.bloom.filter.columns'='pcid,字段2,字段3...')插入数据: 没有要求, 当然如果开启行组索引, 可以将需要使用行组索引的字段, 进行有序插入即可
使用:SET hive.optimize.index.filter=true; SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000 AND pcid IN ('0005E26F0DCCDB56F9041C','A');

数据倾斜

        Join数据倾斜

        解决方案一:

                可以通过 Map Join Bucket Map Join 以及 SMB Join 解决,但是这种操作是存在使用条件的, 如果无法满足这些条件, 无法使用 这种处理方案

        解决方案二:

                将那些产生倾斜的key和对应v2的数据, 从当前这个MR中移出去, 单独找一个MR来处理即可, 处理后, 和之前的MR进行汇总结果即可,但是需要找到倾斜的key,两种解决方案: 运行期处理方案编译期处理方案

运行期处理方案

-- 实操:
set hive.optimize.skewjoin=true; 
-- 开启运行期处理倾斜参数
set hive.skewjoin.key=100000; 
-- 阈值, 此参数在实际生产环境中, 需要调整在一个合理的值(否则极易导致大量的key都是倾斜的)
-- 适用于: 并不清楚哪个key容易产生倾斜, 此时交由系统来动态检测

编译期处理方案

-- 实操:
set hive.optimize.skewjoin.compiletime=true; 
-- 开启编译期处理倾斜参数
CREATE TABLE list_bucket_single (key STRING, value STRING)
-- 倾斜的字段和需要拆分的key值
SKEWED BY (key) ON (1,5,6)
-- 为倾斜值创建子目录单独存放
[STORED AS DIRECTORIES]
-- 适用于: 提前知道那些key存在倾斜
        union all 优化方案

                不管是运行期 还是编译期的join倾斜解决, 最终都会运行多个MR, 将多个MR结果通过union all 进行汇总,union all也是需要单独一个MR来处理
                解决方案:
                    让每一个MR在运行完成后, 直接将结果输出到目的地即可, 默认 是各个MR将结果输出临时目录, 通过 union all 合并到最终目的地
        开启此参数即可:

set hive.optimize.union.remove=true;
        group by 数据倾斜

                倾斜发生后, 出现的问题, 程序迟迟无法结束, 或者说翻译的MR中reduceTask有多个, 大部分的reduceTask都执行完成了, 只有其中一个或者几个没有执行完成, 此时认为发生了数据倾斜

                方案一: 基于MR的 combiner(规约, 提前聚合) 减少数据达到reduce数量, 从而减轻倾斜问题

                只需要在HIVE中开启combiner提前聚合配置参数即可:

set hive.map.aggr=true;

                方案二: 负载均衡的解决方案(需要运行两个MR来处理)

                只需要开启负载均衡的HIVE参数配置即可:

set hive.groupby.skewindata=true;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/663014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器翻译在各领域的应用

你知道机器翻译有哪些应用领域吗&#xff1f; ​​机器翻译在多个领域都有应用场景&#xff0c;最常见的是商业领域。​机器翻译在商业领域中的应用如下&#xff1a; ​ 产品说明书&#xff1a;通过机器翻译&#xff0c;用户可以快速获取产品说明书中的内容&#xff0c;提高…

广州标点医药信息-米内网数据及咨询服务企业全方位解析!

米内网&#xff08;MENET&#xff09;原名中国医药经济信息网&#xff0c;由广州标点医药信息股份有限公司主办&#xff0c;2010年10月28日更名为“米内网”&#xff0c;上线初始主打医药销售数据库&#xff0c;经过十余年的迭代发展&#xff0c;现已成为国内主要的医药健康信息…

计网——应用层

应用层 应用层协议原理 网络应用的体系结构 客户-服务器&#xff08;C/S&#xff09;体系结构 对等体&#xff08;P2P&#xff09;体系结构 C/S和P2P体系结构的混合体 客户-服务器&#xff08;C/S&#xff09;体系结构 服务器 服务器是一台一直运行的主机&#xff0c;需…

数据结构·复杂度讲解

1. 什么是数据结构 数据结构(Data Structure)是计算机存储、组织数据的方式&#xff0c;指相互之间存在一种或多种特定关系的数据元素的集合。 数据结构是用来在内存中管理数据的&#xff0c;类似的&#xff0c;我们熟悉的文件或数据库是在硬盘中管理数据的。内存中的数据是带点…

2024美赛数学建模所有题目思路分析

美赛思路已更新&#xff0c;关注后可以获取更多思路。并且领取资料 C题思路 首先&#xff0c;我们要理解势头是什么。简单来说&#xff0c;势头是一方在比赛中因一系列事件而获得的动力或优势。在网球中&#xff0c;这可能意味着连续赢得几个球&#xff0c;或是在比赛的某个关…

【2024美赛】B题(中英文):搜寻潜水器Problem B: Searching for Submersibles

【2024美赛】B题&#xff08;中英文&#xff09;&#xff1a;搜寻潜水器Problem B: Searching for Submersibles 写在最前面2024美赛翻译 —— 跳转链接 中文赛题问题B&#xff1a;搜寻潜水器你的任务是&#xff1a; 词汇表 英文赛题Problem B: Searching for SubmersiblesYour…

AI:122-基于深度学习的电影场景生成与特效应用

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码,详细讲解供…

详解 Prim 算法的实现

一、算法思路 Prim 算法是用来求最小生成树的&#xff0c;它的思想也有点类似于贪心——逐个将离当前集合最近的点加入到集合中&#xff0c;直至发现图不连通或所有点都被加到集合中&#xff0c;算法即宣告终止。它的具体做法是&#xff1a; step 1&#xff1a;初始时&#xf…

el-tree setChecked实现父子不联动

2024.1.29今天我学习了如何使用el-tree的setChecked用法&#xff0c;在使用el-tree的时候我们需要进行回显情况&#xff1a;如&#xff1a; [{id:1,name:张三, children:[{id:1-1,name:张三四},{id:1-2,name:张三五}]}, {id:2,name:李四}] 如果我们存id&#xff1a; [1,2]&a…

ArcGIS空间分析方法计算城市气体扩散

基于ArcGIS提供的空间分析方法,计算城市气体扩散涉及的密闭空间和开敞空间。 文章目录 一、实验描述二、实验过程1. 加载数据2.符号化3. 建立缓冲区4. 提取密闭空间(建筑)5.提取开敞区域6. 计算开敞空间面积三、注意事项一、实验描述 在对城市空间进行分析时,可将城市空间…

基于VMware和Unbuntu18.04编译 嘉立创·泰山派 Linux SDK

主机硬件要求 内存最少32G 硬盘腾出200-500G&#xff0c;虽然编译最终占了73G&#xff0c;但富余一些以后可以搞别的方便 操作系统win7/10/11 VMware 安装 1.去vmware官网下载&#xff1a;https://customerconnect.vmware.com/cn/downloads/info/slug/desktop_end_user_comp…

小红书种草商品笔记违规,有哪些原因?

发布小红书笔记之后迟迟没有流量&#xff0c;内容过关但是浏览量突然变低是什么原因?如果出现上述情况&#xff0c;就可能是商品笔记被限制了。那么该如何重新获得流量呢?今天我们就来分享下小红书种草商品笔记违规&#xff0c;有哪些原因&#xff1f; 一、怎样判断被限流了 …

网络原理-TCP/IP(4)

TCP原理 滑动窗口 之前我们讲过了确认应答策略,对发送的每一个数据段,都要给一个ACK确认应答,收到ACK后再发送下一个数据段. 确认应答,超时重传,连接管理这样的特性都是为了保证可靠运输,但就是付出了传输效率(单位时间能传输数据的多少)的代价,因为确认应答机制导致了时间大…

Qt实现类似ToDesk顶层窗口 不规则按钮

先看效果&#xff1a; 在进行多进程开发时&#xff0c;可能会遇到需要进行全局弹窗的需求。 因为平时会使用ToDesk进行远程桌面控制&#xff0c;在电脑被控时&#xff0c;ToDesk会在右下角进行一个顶层窗口的提示&#xff0c;效果如下&#xff1a; 其实要实现顶层窗口&#xf…

计算机设计大赛 深度学习 python opencv 火焰检测识别

文章目录 0 前言1 基于YOLO的火焰检测与识别2 课题背景3 卷积神经网络3.1 卷积层3.2 池化层3.3 激活函数&#xff1a;3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV54.1 网络架构图4.2 输入端4.3 基准网络4.4 Neck网络4.5 Head输出层 5 数据集准备5.1 数…

LeetCode 第23天

669. 修剪二叉搜索树 卡哥讲的两个遍历的方法不太听得懂&#xff0c;去题解找了一个和昨天的题类似的删除二叉树节点的方法&#xff0c;感觉好不错。但是还是挺难写出来的&#xff0c;需要判断的情况有点多&#xff0c;再加上递归&#xff0c;我有点泪目了。 class Solution {…

STL - list

1、list的介绍及使用 1.1、list的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列式容器&#xff0c;并且该容器可以前后双向迭代list的底层是双向链表结构&#xff0c;双向链表中每个元素存储在互不相关的独立节点中&#xff0c;在节点中通过指针指向 其前一个元…

计算机网络(第六版)复习提纲21

SS4.6 互联网的路由选择协议 1 关于路由选择协议的基本概念 A 理想的路由算法&#xff08;路由选择协议的核心&#xff09;157 1 算法是正确和完整的 2 计算上简单 3 能适应通信量和网络拓扑的变化&#xff08;自适应性&#xff09; 4 稳定性 5 公平性 6 应当最佳&#xff08;特…

力扣hot100 对称二叉树 递归

Problem: 101. 对称二叉树 文章目录 思路Code 思路 &#x1f468;‍&#x1f3eb; 参考 Code 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( n ) O(n) O(n) /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* …

深入解剖指针篇(3)

个人主页&#xff08;找往期文章&#xff09; &#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 目录 二级指针 指针数组 指针数组模拟二维数组 字符指针变量 数组指针 数组指针初始化 二维数组传参的本质 函数指针 函数指针的使用 typedef关键字 函数指针数组 二级指针…