MapReduce的执行流程排序

        MapReduce 是一种用于处理大规模数据集的分布式计算模型。它将作业分成多个阶段,以并行处理和分布式存储的方式来提高计算效率。以下是 MapReduce 的执行流程以及各个阶段的详细解释:

1. 作业提交(Job Submission)

        用户通过客户端提交 MapReduce 作业。客户端指定作业的输入数据、输出位置、Map 和 Reduce 函数以及其他配置参数。作业提交后,客户端与集群的资源管理器(如 YARN 的 ResourceManager)进行通信,申请资源并提交作业。

2. 作业初始化(Job Initialization)

        资源管理器接收作业请求并启动作业管理器(JobManager),在 YARN 中叫做 ApplicationMaster。作业管理器负责进一步分解作业并为每个任务申请资源。

3. 任务分配(Task Assignment)

        作业管理器将作业分解成多个任务(Tasks),包括多个 Map 任务和 Reduce 任务。资源管理器根据资源情况分配容器(Containers)来执行这些任务。

4. Map 阶段(Map Phase)

4.1. 输入分片(Input Splitting)

        作业管理器将输入数据集分成若干个数据分片(Splits),每个分片通常对应一个 Map 任务。分片是逻辑上的划分,具体的数据读取由记录读取器(RecordReader)完成。

4.2. Map 任务执行

        每个 Map 任务处理一个输入分片。Map 函数读取输入数据(通常是键值对),并产生中间键值对(key-value pairs)。

4.3. 本地排序(In-Memory Sort)

        Map 任务在本地内存中对输出的中间键值对进行排序。如果输出数据超过内存限制,数据会溢出到磁盘,并进行合并和排序。

        并且会将产生的中间键值对写入内存缓冲区(环形缓冲区),缓冲区的大小默认是100MB,存储阈值是80%,当存储的数据达到80%的时候会触发溢写(spill)操作,溢写会对环形缓冲区中的数据写入磁盘文件中,这个过程就被称为溢写文件。

        在写入磁盘时,数据会被分区,排序,这个排序的过程也就是接下来提到的第一次排序,在maptask执行过程中,可能会发生多次溢写,生成多个溢写文件,在maptask结束之后,这些溢写文件会被合并成为一个或者少量文件。     

5. Shuffle 和 Sort 阶段(Shuffle and Sort Phase)

5.1. Shuffle

        在 Map 任务完成后,中间键值对会传输到 Reducer 节点。Shuffle 阶段负责将这些中间数据从 Mapper 节点传输到合适的 Reducer 节点。

5.2. Sort

        Reducer 接收到来自多个 Mapper 的中间数据后,会进行排序。这个排序是基于键的全局排序,确保相同键的所有值聚集在一起。

6. Reduce 阶段(Reduce Phase)

6.1. Reduce 任务执行

        每个 Reduce 任务接收到排序后的中间数据,调用 Reduce 函数处理每个键及其对应的值。Reduce 函数产生最终的输出键值对。

7. 输出阶段(Output Phase)

        Reduce 任务的输出被写入到指定的输出位置(通常是分布式文件系统,如 HDFS)。

8. 作业完成(Job Completion)

        当所有的 Map 和 Reduce 任务都完成后,作业管理器向资源管理器报告作业完成状态。客户端可以查询作业的状态和统计信息。作业的输出数据现在可以供用户使用。

执行流程图解

  1. 作业提交:客户端 -> 资源管理器
  2. 作业初始化:资源管理器 -> 作业管理器(JobManager/ApplicationMaster)
  3. 任务分配:作业管理器 -> Map 任务和 Reduce 任务
  4. Map 阶段
    • 输入分片 -> Map 任务 -> 本地排序
  5. Shuffle 和 Sort 阶段:Map 输出 -> Shuffle -> Sort
  6. Reduce 阶段:Reduce 任务执行
  7. 输出阶段:Reduce 输出写入 -> 输出位置
  8. 作业完成:作业管理器报告 -> 资源管理器 -> 客户端查询

通过这种结构化的执行流程,MapReduce 实现了对大规模数据的高效处理和分析。

总结:

        总结一下,整个mapreduce的执行过程会包含大致三次排序过程,第一次发生在maptask阶段,map阶段会对输入的数据进行读取并产生中间键值对,maptask在本地内存中对输出的中间键值对进行排序。如果输出数据超过内存限制,就会触发第二次排序,此时数据会溢出到磁盘,并进行合并和排序。第三次排序:数据在进行shuffer和sort阶段的合并排序之后,会发送到对应的reducer节点,此时会进行最后的归并排序,将所有键值对按照相同的键进行合并,保证拥有相同键的值存放在一起,这次的排序是全局排序,reducetask会将排序好的结果进行输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37846.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【人工智能学习之图像操作(五)】

【人工智能学习之图像操作(五)】 对象掩码形状匹配 对象掩码 用于获取构成对象的所有像素点 import cv2 import numpy as np img cv2.imread(3.jpg) imggray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) ret, thresh cv2.threshold(imggray, 127, 255, …

人工神经网络在全规模污水处理厂性能预测中的应用

人工神经网络(Artificial Neural Networks, ANNs)是一种模拟生物神经网络的计算模型,广泛应用于各种预测和分类任务中。在全规模污水处理厂性能预测中,ANNs可以用来预测处理效率、能耗、出水质量等关键指标,帮助优化运…

Python | Leetcode Python题解之第205题同构字符串

题目: 题解: class Solution:def isIsomorphic(self, s: str, t: str) -> bool:dicts Counter(s)dictt Counter(t) if list(dicts.values()) ! list(dictt.values()):return Falsefor i in range(len(s)):inds list(dicts.keys()).index(s…

Z变换详细介绍

Z变换是一种强有力的数学工具,用于分析和设计离散时间信号和系统。它是傅里叶变换和拉普拉斯变换在离散时间域的推广,广泛应用于数字信号处理、控制系统等领域。 定义 离散时间信号 x [ n ] x[n] x[n]的Z变换定义为: X ( z ) ∑ n − ∞…

51单片机第3步_4X4键盘应用

以前学习51单片机&#xff0c;总想着电路设计&#xff0c;所以程序里也体现了器件的电气连接。这是一个4x4的小键盘&#xff0c;也是用模拟软件仿真的。 #include <reg51.h> //p1.0~p1.3用作输出,P1.4~ P1.7用做输入,接上拉电阻; //列号码: P1.4 P1.5 P1.6 P1.…

C#语言编写的仅有8KB大小的简易贪吃蛇开源游戏

前言 今天大姚给大家分享一款由C#语言编写的仅有8KB大小的简易贪吃蛇开源游戏&#xff1a;SeeSharpSnake。 项目特点 该仓库中的项目文件和脚本可以用多种不同的配置构建相同的游戏&#xff0c;每个配置生成的输出大小也不同。 项目源码运行 F5 运行 SeeSharpSnake项目&…

【Android面试八股文】在项目开发过程中,你在什么时候会考虑到使用Service?如何拥有service的进程具有较高的优先级?

文章目录 一、在项目开发过程中,你在什么时候会考虑到使用Service?二、在项目开发过程中,如何拥有service的进程具有较高的优先级?方法一:使用前台服务(Foreground Service)方法二:提高进程优先级(不推荐)注意事项补充一、在项目开发过程中,你在什么时候会考虑到使用…

FFmpeg 关于AV1编码指导文档介绍

介绍 本篇博客主要介绍FFMpeg中关于AV1编码支持说明,主要根据官方wiki说明进行总结。官方wiki地址:AV1AV1是一种由Alliance for Open Media (AOMedia)开发的开源且免版税的视频编解码器,它在压缩效率上比VP9高出约30%,比H.264高出约50%。目前,FFmpeg支持三种AV1编码器:li…

E4A视频APP源码电视盒子Coolpoint酷点电视4.5版后端苹果cms

电视盒子酷点TV版4.5影视APP源码后端对接苹果CMS&#xff0c;此版带会员功能,对接的是 如意验证1.71版苹果cms后端APP 电视TV4.5版,会员功能带注册邀请,绑定邮箱,邮箱找回密码,修改新密码,卡密充值,签到,积分兑换会员&#xff1b; 自带10个解析线路,有电视直播功能,首页滚动公…

Java教程之IO模式精讲,NIO+BIO

第一章 BIO、NIO、AIO介绍 背景 在java的软件设计开发中&#xff0c;通信架构是不可避免的&#xff0c;我们在进行不同系统或者不同进程之间的数据交互&#xff0c;或 者在高并发下的通信场景下都需要用到网络通信相关的技术&#xff0c;对于一些经验丰富的程序员来说&#x…

第11章 规划过程组(11.5创建WBS)

第11章 规划过程组&#xff08;一&#xff09;11.5创建WBS&#xff0c;在第三版教材第380~383页&#xff1b; 文字图片音频方式 视频22 第一个知识点&#xff1a;主要输入 1、项目管理计划 范围管理计划 定义了如何根据项目范围说明书创建WBS2、项目文件 项目范围说明…

十六进制计数器

目录 描述 输入描述&#xff1a; 输出描述&#xff1a; 参考代码 描述 请用Verilog设计十六进制递增计数器电路&#xff0c;每个时钟周期递增1。 电路的接口如下图所示。Q[3:0]中&#xff0c;Q[3]是高位。 接口电路图如下&#xff1a; 输入描述&#xff1a; input …

操作系统期末复习考题三(不挂科系列)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、前言&#x1f680;&#x1f680;&#x1f680;二、正文☀️☀️☀️三、总结&#x1f353;&#x1f353;&#x1f353; 一、前言&#x1f680;&#x1f680;&am…

生有热爱:成为一束光

坚持每天写作&#xff0c;转眼已过两周。这两周除了每天1&#xff5e;2篇文章的输出外&#xff0c;还看完了《生有热爱》这本书。这应该是看纸质书以来&#xff0c;第一次精确时间点完成一本书的阅读&#xff0c;成就感满满。这本书主要是以篇章的形式&#xff0c;讲述了一个又…

java基于ssm+jsp 房屋租赁系统

1 管理员登录 管理员输入个人的用户名、密码登录系统&#xff0c;这时候系统的数据库就会在进行查找相关的信息&#xff0c;如果我们输入的用户名、密码不正确&#xff0c;数据库就会提示出错误的信息提示&#xff0c;同时会提示管理员重新输入自己的用户名、密码&#xff0c;…

了解WPF控件:OpenFileDialog常用属性与用法(十六)

掌握WPF控件&#xff1a;熟练OpenFileDialog常用属性&#xff08;十六&#xff09; OpenFileDialog控件在WPF中用于需要用户指定文件路径&#xff0c;为用户提供了一个直观且易用的界面来浏览和选择本地文件系统中的文件。例如&#xff0c;当用户需要打开一个已存在的文本文件…

C++自定义智能指针

template <class T> class counted_ptr;// 智能指针引用计数类 template <class T> class Ref_Ptr {friend class counted_ptr<T>; private:T* m_pTtr; // 实际的指针size_t counted_ptr; // 引用计数Ref_Ptr(T* p);virtual ~Ref_Ptr(); };template <clas…

使用tar命令解压文件的教程

使用tar命令解压文件的教程 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在Linux和Unix系统中&#xff0c;tar命令是一个常用的压缩和解压工具&#xff0c;…

【Arduino】实验使用ESP32控制可编程继电器制作跑马灯(图文)

今天小飞鱼实验使用ESP控制继电器&#xff0c;为了更好的掌握继电器的使用方法这里实验做了一个跑马灯的效果。 这里用到的可编程继电器&#xff0c;起始原理并不复杂&#xff0c;同样需要ESP32控制针脚输出高电平或低电平给到继电器&#xff0c;继电器使用这个信号控制一个电…

如何焊铜管 量测射频前端模块

先说结论 要做Port Extension待测物要上电 且根据逻辑表给Enable pin上电网分输入功率 不要太大 -20dBm即可铜管的接地 要足够 以及足够近铜管与待测物之间 必要时 隔一颗电容不要将匹配元件 也包含在量测范围讯号针不要直接焊在焊盘上 首先 铜管要做Port…