Hadoop3教程（七）：MapReduce概述

（68） MR的概述&优缺点

MapReduce是一个分布式运算程序的编程框架，简单的说，就是一个 分布式计算框架，是Hadoop的核心所在。

MR的核心功能，是将用户编写的业务逻辑代码和自身组件相融合，整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。

优点：

缺点：

不擅长实时计算。无法达到mysql这种毫秒级查询，无法快速响应；
不擅长流式计算。指数据一条条过来，实时的流式计算。一般是spark streaming和flink适合做这个。MR的特性决定了其数据源必须是静态的。
不擅长DAG有向无环图。像是迭代计算，即DAG中，任务一的输出会作为任务二的输入，任务二的输出则会作为任务三的输入，以此类推，是一个链式的结构。MR不擅长处理这种，当然，只是不擅长，不是不支持。相比来讲，spark更适合用来处理这种任务。（因为spark的中间结果是基于内存的，而MR是基于磁盘，重复IO性能太低下）

经典案例：统计一段话中每个单词出现的总次数，其中a~p的结果放在一个文件，q~z的结果放在一个文件里。

MR的计算分为两个阶段：Map阶段和Reduce阶段。

接下来我们以经典案例，来讲解MR的主要工作流程，如图：

在这里插入图片描述

1） Map阶段，是任务分配阶段，一般是按照块大小，每个MapTask负责处理一块数据。这个块一般是128M。

这个阶段的MapTask并发实例，完全并发运行，互不相干。

在我们刚说的这个案例里，MapTask中都做了些什么呢？

2） Reduce阶段，就是任务汇总统计阶段。

这一阶段的ReduceTask并发实例也是互不相干，但是它们依赖于Map阶段所有MapTask并发实例的输出。

在这个案例里，因为结果需要有2个文件，所以这里会有2个ReduceTask，一个负责汇总出ap，一个负责汇总出qz，并分别输出至文件。

在一个MR计算过程中，只能包含一个Map阶段和一个Reduce阶段。如果用户的业务逻辑过于复杂，那么可以创建多个MR计算程序，串行计算。这就相当于链式的有向无环图计算了。

一些问题细节：

这些问题都将在后面一一解答。

一个完整的MR程序在分布式运行的时候，会产生三种类型的进程：

MapTask和ReduceTask似乎都是yarnchild，这里仅供参考一下。

WordCount（即WC），这是Hadoop里一个很经典的MR案例，教程后面很多地方在讲解底层原理的时候都会以WC为例做讲解。

官方WordCount的源码在哪儿呢？

大概在Hadoop安装目录的share/hadoop/mapreduce/hadoop-mapreduce-example-xxx.jar，这里面存储了Hadoop的一些代码案例。

jar包反编译工具：jd-gui。

WC的源码里，核心是三个类：

分工很明确。

另外，这里简单介绍下hadoop中常用的数据序列化类型，后面讲序列化的时候会用到：