Hadoop中的MapReduce流程(图解)

一、MapReduce流程图:

image-20240409194307341

 

二、MapReduce流程步骤:

1.文件上传到HDFS中,默认以128M切分为一个block块
2.每个block块对数据进行逻辑上的切片,切片大小为128M,与block块大小一致
3.之后根据切片产生Map任务
4.Map任务会进入环形缓冲区,根据Reduce数量以及数据本身的值进行分区编号(底层与哈希值有关)并进行快速排序,当写入环形缓冲区的数据达到环形缓冲区的80%,向磁盘溢写一个小文件
5.之后将溢写的小文件使用归并算法合并产生Map任务的结果文件
6.然后Reduce从结果文件拉取对应的分区编号的数据,去掉编号后,对拉取的文件数据进行归并排序
7.执行Reduce逻辑,产生Reduce结果

三、思考

思考1:map数量是越多越好吗?

在产生Map任务之前,会进行逻辑切片,切片的大小默认与block大小一致(128M),这个切片的大小会影响下一阶段生成map任务的数量,切片的数量越多,产生的map任务数量就越多,同时需要的资源和时间也越多

 

思考2:hdfs是否适合存储小文件(从MapReduce角度出发)

不适合,小文件一多,意味着block块变多,产生的split切片就多,就意味着map任务过多,会消耗大量的资源和时间

 

思考3: split与map的关系?

要想产生的map任务数量变少,就要调大切片的大小;反之调小;

 

思考4:split切片的大小可以随意调整吗?

split切片的大小理论上来说,想调整多大都可以,但是官方建议是128M的整数倍,这样是为了防止跨节点获取数据,加大网络消耗带宽,增加数据读取时间

 

思考5:map的数量一定是与split数量一致吗?

如果最后两个split切片实际的数据大小加起来小于等于128M(block块的大小)*1.1,那么就会被读取到一个map任务中进行,否则就两个map任务分别读取数据进行处理

 

思考6:map以什么样的格式读取数据呢?

默认情况下,每次读取文件的一样数据,将这一行的数据封装成一个键值对读取进来,键值对的类型默认是<LongWriteable,Text>。
LongWriteable代表的是行开始索引,Text代表的是一行的数据

 

思考7:reduce的个数可以调整吗?

可以,默认MapReduce只提供一个Reduce,但是可以在代码或者集群配置文件中设置reduce个数

 

 思考8:reduce的个数会带来什么影响?

1.有几个reduce最终就会产生几个结果文件
2.reduce的个数影响数据在环形缓冲区的分区编号的计算
3.reduce的数量也会影响整体的执行速度和效率

 

思考9:reduce发挥了什么作用?  

reduce主要从map中间结果文件中拉取对应分区编号的数据,去除编号后,对拉取的多个文件进行归并排序,执行reduce的逻辑

 

思考10:map的数量可以通过配置文件配置吗?  

map数量不可以直接设置,但是可以设置split切片的大小来影响map

 

思考11:整个MapReduce过程中,经过了几次排序,分别是?  

一共经历了3次,一次快速排序,两次归并排序,快速排发生在环形缓冲区内部编号之后,第一次归并排序是将环形缓冲区溢写的小文件进行归并排序,第二次归并排序发生在reduce阶段,拉取所有的小文件后,对拉取的小文件进行归并排序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/824915.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Go语言快速上手(二)】 分支与循环函数讲解

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:Go语言专栏⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Go语言知识   &#x1f51d;&#x1f51d; Go快速上手 1. 前言2. 分支与循环2.1…

PLGA-PEG-PLGA温敏水凝胶 相变温度下是溶液 相变温度上是凝胶

PLGA-PEG-PLGA温敏水凝胶 相变温度下是溶液 相变温度上是凝胶 【中文名称】 温敏水凝胶 【英文名称】 PLGA-PEG-PLGA 【结 构】 【品 牌】 碳水科技&#xff08;Tanshtech&#xff09; 【纯 度】 95%以上 【保 存】 -20 【规 格】 10g/袋 【产品特性】…

Web端Webrtc,SIP,RTSP/RTMP,硬件端,MCU/SFU融合视频会议系统方案分析

Web端视频融合&#xff0c;会议互通已经是视频会议应用的大趋势&#xff0c;一是目前企业有大量的老视频会议硬件设&#xff0c;二新业务又需要Web端支持视频会议监控直播需求&#xff0c;迫切需要一个融合对接的方案&#xff0c;即能把老的设备用起来&#xff0c;又能对接新的…

浅析LED节能原理

随着全球对节能环保意识的增强&#xff0c;LED显示屏行业也在积极探索更加节能的生产和使用方式。作为显示屏制造厂家&#xff0c;了解和应用LED节能原理不仅是市场的需求&#xff0c;也是企业履行社会责任的表现。本文将浅析LED节能原理及其在显示屏制造中的应用。 LED节能的基…

【R语言】动画图:散点图

绘制成如下的散点图&#xff1a; 如果数据量大&#xff0c;有多个年份&#xff0c;就会生成多张图&#xff0c;例如&#xff1a; 具体代码如下&#xff1a; library(gapminder)#加载 gapminder 包&#xff0c;其中包含了从 1952 年至 2007 年各个国家的 GDP、预期寿命和人口数据…

Activity 的生命周期

进入应用&#xff0c;点击 Home 键退出&#xff0c;再次回到应用&#xff1a; 横竖屏切换时&#xff0c;Activity 的生命周期&#xff08;没有配置 configChanges 属性时&#xff09;&#xff1a; 横竖屏切换时&#xff0c;Activity 的生命周期&#xff08;在清单文件中配置 a…

单链表的实现(单链表的增删查改)

在顺序表中实现数据的增删的操作时&#xff0c;都要把操作位置之后的数据全部移动一遍&#xff0c;操作效率低下。其次是容量固定&#xff08;静态顺序表&#xff09;&#xff0c;虽然在动态顺序表中容量可变&#xff0c;但也会造成空间上的浪费。 单链表就完美解决了上述缺点…

为什么很多人说考研数学不要用张宇?你要警惕的是老学长!

先看看说的是不是老学长&#xff0c;他们不了解24考情。 25考研er&#xff0c;都是用脚投票&#xff01; 一、最新数据 1. 中等基础&#xff08; “答案都懂&#xff0c;题型一变就不会做了”&#xff09; 2024年&#xff0c;67%选择武忠祥&#xff0c;23%选择张宇&#xff…

150个 HTML5 成体系的网站模版 量大慢选 持续更新中

目录 HTML5 网站模版 No.1HTML5 网站模版 No.2HTML5 网站模版 No.3HTML5 网站模版 No.4HTML5 网站模版 No.5 HTML5 网站模版 No.1 HTML5 网站模版 No.1 HTML5 网站模版 No.2 HTML5 网站模版 No.2 HTML5 网站模版 No.3 HTML5 成体系网站模版 No.3 HTML5 网站模版…

SpringCloud(一)

微服务框架 一、分布式架构 分布式架构︰根据业务功能对系统进行拆分&#xff0c;每个业务模块作为独立项目开发&#xff0c;称为一个服务。 优点: 降低服务耦合有利于服务升级拓展 微服务是一种经过良好架构设计的分布式架构方案&#xff0c;微服务架构特征: 单一职责:微…

OWASP发布大语言模型网络安全与治理清单

当前人工智能技术面临的最大风险是大语言模型&#xff08;LLM&#xff09;和生成式人工智能技术的发展和应用速度已经远远超过了安全和治理的速度。 OpenAI、Anthropic、谷歌和微软等公司的生成式人工智能和大语言模型产品的使用正呈指数级增长。与此同时&#xff0c;开源大语…

js微博发布案例

思路&#xff1a; 需求1&#xff1a;检测用户输入的字数 注册input事件 将输入文本长度赋值给对应的数值 需求2&#xff1a;输入不能为空 点击按钮之后判断 如果输入为空&#xff0c;则提示不能输入为空&#xff0c;并直接return 为了防止无意义的一些输入&#xff0c;利用字符…

Redis从入门到精通(二十)Redis最佳实践(一)优雅的Key结构、拒绝BigKey

文章目录 第7章 Redis最佳实践7.1 Redis键值设计7.1.1 优雅的Key结构7.1.2 拒绝BigKey7.1.2.1 何为BigKey7.1.2.2 BigKey的危害7.1.2.3 如何发现BigKey7.1.2.4 如何删除BigKey 7.1.3 恰当的数据类型7.1.3.1 存储Java对象7.1.3.2 存储hash数据 7.1.4 小结 第7章 Redis最佳实践 …

用html写一个窗口风景动画

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>窗边风景动画</title><link rel"stylesheet" href"./style.css"> </head> <body><!-- 窗户 -->&l…

【OpenHarmony】XTS环境配置

零、参考 1、xts测试环境配置&#xff1a;https://www.yuque.com/u25440504/ehvzki/ik2fso 2、Windows安装Python、pip、easy_install的方法&#xff1a;https://pythonjishu.com/bmxqeisbkzgrpnn/ 3、Python中easy_install 和 pip 的安装及使用&#xff1a; https://blog.c…

Vision Pro 零基础教程:1.机器视觉概述

文章目录 机器视觉简介机器视觉的发展历史机器视觉的结构组成机器视觉的应用工业相机分类1. 按传感器类型分类&#xff1a;2. 按分辨率分类&#xff1a;3. 按扫描方式分类&#xff1a;4. 按输出信号类型分类&#xff1a;5. 按应用领域分类&#xff1a;6. 按接口类型分类&#x…

springSecurity-记住我(Remember me)

一.记住我概述 Remember me(记住我)记住我&#xff0c;当用户发起登录勾选了记住我&#xff0c;在一定的时间内再次登录就不用输入用户名和密码了&#xff0c;即使浏览器退出重新打开也是如此。 二.流程分析 在SpringSecurity中提供RememberMeAuthenticationFilter过滤器来实…

day10 | 栈与队列 part-2 (Go) | 20 有效的括号、1047 删除字符串中的所有相邻重复项、150 逆波兰表达式求值

今日任务 20 有效的括号 (题目: . - 力扣&#xff08;LeetCode&#xff09;)1047 删除字符串中的所有相邻重复项 (题目: . - 力扣&#xff08;LeetCode&#xff09;)150 逆波兰表达式求值 (题目: . - 力扣&#xff08;LeetCode&#xff09;) 20 有效的括号 题目: . - 力扣&…

Redis入门到通过之解决Redis缓存击穿、缓存穿透、缓存雪崩

文章目录 ☃️缓存击穿❄️❄️解决方案一、使用锁来解决&#xff1a;❄️❄️解决方案二、逻辑过期方案❄️❄️解决方案三、永不过期 主动更新❄️❄️解决方案四、接口限流❄️❄️实战❄️❄️❄️利用互斥锁解决缓存击穿问题❄️❄️❄️利用逻辑过期解决缓存击穿问题 ☃️…

Python-VBA函数之旅-float函数

目录 1、float函数&#xff1a; 1-1、Python&#xff1a; 1-2、VBA&#xff1a; 2、相关文章&#xff1a; 个人主页&#xff1a;https://blog.csdn.net/ygb_1024?spm1010.2135.3001.5421 float函数在 Python 中的实际应用场景非常广泛&#xff0c;几乎涉及到任何需要处理…