数据倾斜?几招把你安排的板板正正的!

 🍅 作者:不吃西红柿 

🍅 简介:CSDN博客专家🏆、HDZ核心组成员💪、C站总榜前10名✌ 

🍅 粉丝专属福利:文末公号「信息技术智库」回复「资料」领取

🍅 如觉得文章不错,欢迎点赞、收藏、评论


文末下载PDF

拥有本篇PDF,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点,文章内容主要来源于以下几个方面:

  1. 源于「数据仓库交流群」资深数据仓库工程师的交流讨论,如《sql行转列的千种写法》。
  2. 源于群友面试大厂遇到的面试真题,整理投稿给我,形成《面试题库》。
  3. 源于笔者在系统学习过程中整理的笔记和一点理解
  4. 源于技术网站的优质文章和高赞答案

本篇文章尤其适合初级程序员准备面试,以及作为工作中的指导手册,对资深程序员来说也可夯实基础。

当然,技术学习仅仅依靠一篇文章还是不够的,可加入公众号和技术交流群(联系方式见文末),群里有很多数据仓库领域资深大佬,大家经常在群里讨论技术热点问题、互相解决工作难题、安排内推、甚至有部门leader直接发出岗位邀请。「西红柿🍅」也会持续更新优质文章,也欢迎热爱学习总结的小伙伴有偿投稿,共同推动中国信息技术行业发展,让我们一起加油吧!

1、数据倾斜表现

1.1 hadoop中的数据倾斜表现

  • 有一个多几个Reduce卡住,卡在99.99%,一直不能结束。
  • 各种container报错OOM
  • 异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer
  • 伴随着数据倾斜,会出现任务被kill等各种诡异的表现。

1.2 hive中数据倾斜

一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。
 

1.3 Spark中的数据倾斜

Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:

  • Executor lost,OOM,Shuffle过程出错;
  • Driver OOM;
  • 单个Executor执行时间特别久,整体任务卡在某个阶段不能结束;
  • 正常运行的任务突然失败;

2、数据倾斜产生原因

我们以Spark和Hive的使用场景为例。

在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。
 

一般来说,数据倾斜原因有以下几方面:

1)key分布不均匀;

2)建表时考虑不周

举一个例子,就说数据默认值的设计吧,假设我们有两张表:

    user(用户信息表):userid,register_ip

    ip(IP表):ip,register_user_cnt

这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话,会出现一种情况:

user表中的register_ip字段,如果获取不到这个信息,我们默认为null;

但是在ip表中,我们在统计这个值的时候,为了方便,我们把获取不到ip的用户,统一认为他们的ip为0。
 

两边其实都没有错的,但是一旦我们做关联了,这个任务会在做关联的阶段,也就是sql的on的阶段卡死。
 

3)业务数据激增

比如订单场景,我们在某一天在北京和上海两个城市多了强力的推广,结果可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。
 

然后我们要统计不同城市的订单情况,这样,一做group操作,可能直接就数据倾斜了。
 

3、解决数据倾斜思路

很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。

1)业务逻辑

我们从业务逻辑的层面上来优化数据倾斜,比如上面的两个城市做推广活动导致那两个城市数据量激增的例子,我们可以单独对这两个城市来做count,单独做时可用两次MR,第一次打散计算,第二次再最终聚合计算。完成后和其它城市做整合。

2)程序层面

比如说在Hive中,经常遇到count(distinct)操作,这样会导致最终只有一个Reduce任务。

我们可以先group by,再在外面包一层count,就可以了。比如计算按用户名去重后的总用户量:
 

(1)优化前 

只有一个reduce,先去重再count负担比较大:

select name,count(distinct name)from user;

(2)优化后

// 设置该任务的每个job的reducer个数为3个。Hive默认-1,自动推断。

set mapred.reduce.tasks=3;

// 启动两个job,一个负责子查询(可以有多个reduce),另一个负责count(1):

select count(1) from (select name from user group by name) tmp;
 

3)调参方面

Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜,合理利用它们就能解决大部分问题。
 

4)从业务和数据上解决数据倾斜

很多数据倾斜都是在数据的使用上造成的。我们举几个场景,并分别给出它们的解决方案。
 

一个原则:尽早过滤每个阶段的数据量。

  1. 数据有损的方法:找到异常数据,比如ip为0的数据,过滤掉。
  2. 数据无损的方法:对分布不均匀的数据,单独计算。
  3. hash:先对key做一层hash,先将数据随机打散让它的并行度变大,再汇聚。
  4. 数据预处理:就是先做一层数据质量处理,类似于数据仓库维度建模时,底层先处理数据质量。

添加公众号「信息技术智库」:

🍅 硬核资料:20G,8大类资料,关注即可领取(PPT模板、简历模板、技术资料)
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由各个技术群小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、前端等。

👇👇送书抽奖丨技术互助丨粉丝福利👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494558.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据解读:资本追逐的14个人工智能细分领域

来源:亿欧摘要: 2014年后,人工智能逐渐成为中国私募市场的“宠儿”,投资风口也逐渐形成。亿欧智库最新推出的《2018中国人工智能投资市场研究报告》中,挖掘了14个行业中最受追捧的细分领域。2012年,深度学习…

【举栗说明】JavaScript作用域,一次性给你总结!

🍅 作者:阿珊 🍅 作者简介:95后前端小姐姐,蓝桥签约作者,欢迎点赞、收藏、评论 🍅 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取 🍅 包邮送书&…

反思腾讯:大数据与AI时代的危与机

来源:华尔街见闻摘要:过去十数年,腾讯从一个桌面即时通讯工具进化成为一个庞大的数字帝国,是全球互联网公司失控性进化的先行者和光辉典范。过去十数年,腾讯从一个桌面即时通讯工具进化成为一个庞大的数字帝国&#xf…

poj 1015(dp)

看的解题报告。。http://blog.csdn.net/lyy289065406/article/details/6671105 View Code 1 #include <iostream>2 #include <cstdio>3 #include <cstring>4 #include <algorithm>5 6 using namespace std;7 8 int dp[22][805];9 int path[22][805]; …

cocos2dx实现经典飞机大战

游戏开始层 #ifndef __LayerGameStart_H__ #define __LayerGameStart_H__ #include "cocos2d.h" USING_NS_CC;class LayerGameStart :public CCLayer { public:static CCScene * scene();CREATE_FUNC(LayerGameStart);bool init();void addStartGamePicture();void …

【包邮送书活动】20211018期-开奖通知

奖品&#xff1a;包邮实体书 参与方式&#xff1a;CSDN点赞评论收藏文章即可参与、或公众号 开奖通知方式&#xff08;老是有人中奖联系不上&#xff0c;我很郁闷&#xff09;&#xff1a;朋友圈、blink、私信、发文 抽奖程序说明&#xff1a;https://notomato.blog.csdn.ne…

Cocos2dx实现象棋之布局

开始界面 #ifndef SCENESTART_H #define SCENESTART_H #include "cocos2d.h" #include "SceneGame.h" USING_NS_CC;class SceneStart : public CCLayer { public://SceneStart();static CCScene * scene();CREATE_FUNC(SceneStart)bool init();bool ccTou…

《画解算法》3. 无重复字符的最长子串【python3丨简单】

&#x1f345; 作者主页&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家、C站总榜第8&#x1f3c6;、HDZ核心组成员。欢迎点赞、收藏、评论 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: s "abca…

【关注】人类的智力是如何发展起来的?《自然》发布三大科学假说

来源&#xff1a;天大神经工程摘要&#xff1a;我们人类的远祖——著名的阿法南方古猿Lucy生活在三至四百万年前&#xff0c;身体构造介于现代人类与动物之间。我们人类的远祖——著名的阿法南方古猿Lucy生活在三至四百万年前&#xff0c;身体构造介于现代人类与动物之间。南方…

工业4.0进行时:增强现实技术如何变革制造业

来源&#xff1a;资本实验室摘要&#xff1a;说到增强现实&#xff0c;很多人可能首先会想到曾在一夜之间席卷全球&#xff0c;风靡世界的精灵宝可梦AR游戏。聚焦前沿科技创新与传统产业升级说到增强现实&#xff0c;很多人可能首先会想到曾在一夜之间席卷全球&#xff0c;风靡…

我不藏了:7个技术体系、共100篇文章、总计1OO万字

&#x1f345; 作者主页&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家、C站总榜第8&#x1f3c6;、HDZ核心组成员。欢迎点赞、收藏、评论 &#x1f345; 粉丝专属福利&#xff1a;知识体系、面试题库、技术互助、简历模板。文末公众号领取 &#x1f345…

车联网解决方案(PPT)

来源&#xff1a;智车科技未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#…

刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

一、Hadoop入门 1、常用端口号 hadoop3.x HDFS NameNode 内部通常端口&#xff1a;8020/9000/9820 HDFS NameNode 对用户的查询端口&#xff1a;9870 Yarn查看任务运行情况的&#xff1a;8088 历史服务器&#xff1a;19888 hadoop2.x HDFS NameNode 内部通常端口&#xf…

Google发布“多巴胺”开源强化学习框架,三大特性全满足

&#xfeff;&#xfeff;编译整理 | Just编辑 | 阿司匹林来源&#xff1a;AI科技大本营强化学习是一种非常重要 AI 技术&#xff0c;它能使用奖励&#xff08;或惩罚&#xff09;来驱动智能体&#xff08;agents&#xff09;朝着特定目标前进&#xff0c;比如它训练的 AI 系统…

5万成员丨CSDN 大数据领域网红社区!

一、社区愿景 社区地址&#xff1a;https://bbs.csdn.net/forums/ITID 我的梦想很大&#xff0c;大到致力于打造大数据领域第一社区&#xff0c;赋能中国技术社区蓬勃发展。 我的“格局”很小&#xff0c;小到每一篇优质文章&#xff0c;都会不吝啬加精&#xff0c;置顶。 …

坦克大战实现

先将常用的函数与头文件&#xff0c;宏定义等写到一个公共类中 #ifndef __Common_H__#define __Common_H__#include "cocos2d.h"#include "SimpleAudioEngine.h"#include "cocos-ext.h"USING_NS_CC;USING_NS_CC_EXT;#define winSize CCDirector:…

汽车传感器:自动驾驶“第一步”,新兴领域中国有望突围

来源&#xff1a;&#xff08;中金公司&#xff1a;黄乐平 &#xff09;摘要&#xff1a;从L3级量产车奥迪A8&#xff0c;到L4级量产巴士百度阿波龙&#xff0c;L3级自动驾驶已逐渐开始落地量产。位处产业链上游的汽车传感器行业最先感受到春意&#xff0c;各种技术路线争鸣&am…

怎么改变asp.net中.sln文件的默认生成路径

转自&#xff1a;http://zhidao.baidu.com/question/149657564.html 你新建解决方案就可以改 转载于:https://www.cnblogs.com/hellolong/articles/2801731.html

腾讯阿里是否开始走向没落,用新互联网大脑模型分析

前言&#xff1a;虽然腾讯面临头条、抖音、陌陌、钉钉等新兴社交平台挑战&#xff0c;阿里面临海尔COSMOPlat&#xff0c;三一重工树根互联、美国GE Predix、德国西门子Mindsphere等工业互联网平台的挑战&#xff0c;但其核心优势依然存在&#xff0c;积累势能继续提高&#xf…

这5个超级经典SQL都不会,回去等通知吧

&#x1f345; 简介&#xff1a;CSDN博客专家&#x1f3c6;、信息技术智库公号作者✌ 简历模板、PPT模板、学习资料、面试题库、技术互助【关注我&#xff0c;都给你】 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 一、每门课程问题 用一条 SQL 语句…