MapReduce简述

MapReduce

参考：

https://www.cnblogs.com/lixiansheng/p/8942370.html

https://baike.baidu.com/item/MapReduce/133425?fr=aladdin

概念

MapReduce是面向大数据并行处理的计算模型，用于大规模数据集的并行计算。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理。

体系结构

MapReduce体系结构主要由四部分组成：Client, JobTracker, TaskTracker, Task。

Client：用户编写MapReduce程序通过Client提交到JobTracker端，用户可以通过Client提供的接口查看作业的运行状态。
JobTracker：负责资源监控和作业调度，JobTracker监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点。 JobTracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器TaskScheduler，而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。
TaskTracker：TaskTracker会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。 TaskTracker使用slot等量划分本节点上的资源量（CPU、内存等）。一个Task获取到一个slot后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot分为Map slot和Reduce slot两种，分别供Map Task和Reduce Task使用。
Task：分为Map Task和Reduce Task，均由Task Tracker启动。

在这里插入图片描述

工作原理

在这里插入图片描述

User Program链接了MapReduce库，实现了最基本的Map函数和Reduce函数。

MapReduce库先把User Program的输入文件划分为m份（用户定义），通常每一份16mb~64mb，如图划分为split 0 ~ split 4。
使用fork()将用户进程拷贝到集群内其他机器上，其中一个称为master，其余称为worker。master负责调度，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是由用户指定。
被分配了Map作业的worker，开始读取对应分片的输入数据。Map作业从输入数据中抽取键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对（中间结果）被缓存在内存中。
缓存的中间键值对（中间结果）会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业。这些中间键值对（中间结果）的位置会被通报给master，master负责将信息转发给Reduce worker。
master向分配了Reduce作业的worker通知它所负责的分区的位置，当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。
当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program的代码。