1、MapReduce
(1)采用框架
MapReduce是“分散——>汇总”模式的分布式计算框架,可供开发人员进行相应计算
(2)编程接口:
~Map
~Reduce
其中,Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理。
Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计。
(3)调用
用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、python等编程语言,实现Map Reduce功能接口即可。
2、执行原理
(1)执行实例
将任务分解为“分散”——>“任务”——>“汇总”。
在这里,我们一共有四台服务器,其中三台服务器执行Map,最后一台服务器执行Reduce。
对于三台执行Map的服务器,每台服务器统计其分到的数据的单词数量,最后将所有数据汇总给第四台服务器,由第四台服务器进行汇总操作。