文章目录
- 目录
- 1.MapReduce介绍
- 1.1 什么是分布式并行编程?
- 1.2 MapReduce模型介绍
- 1.3 map和reduce函数
- 2.MapReduce体系架构
- 3.MapReduce工作流程
- 3.1 概述
- 3.2 MapReduce各个阶段介绍
- 3.3 shuffle过程介绍
- 3.3.1 shuffle过程简介
- 3.3.2 map中的shuffle过程
- 3.3.3 reduce中的shuffle过程
- 3.3.4 MapReduce应用程序执行过程
- 4.MapReduce具体应用
- 4.1 wordCount
- 4.1.1 程序的任务
- 4.1.2 设计思路
- 4.1.3 执行过程
- 4.2 关系表的自然连接
- 5.MapReduce编程实践
- 5.1 任务
- 5.2 编写map处理逻辑
- 5.3 编写reduce处理逻辑
- 5.4 编写main方法
- 5.5 打包编译程序
- 5.6MapReduce中执行MapReduce其他方法
- 6.总结
目录
1.MapReduce介绍
1.1 什么是分布式并行编程?
传统的并行计算框架:cuda,MPI,OPENMP等等
参考博客
1.2 MapReduce模型介绍
1.3 map和reduce函数
结合操作:对键相同的数据的值进行相加
归并操作:对键相同的数据的值组合成一个数组
2.MapReduce体系架构
3.MapReduce工作流程
3.1 概述
3.2 MapReduce各个阶段介绍
3.3 shuffle过程介绍
3.3.1 shuffle过程简介
3.3.2 map中的shuffle过程
3.3.3 reduce中的shuffle过程
3.3.4 MapReduce应用程序执行过程
map和reduce执行过程中产生的数据都是存储在其本地计算机内部,这样可以避免频繁的通信造成的延迟和不必要的错误。
4.MapReduce具体应用
4.1 wordCount
4.1.1 程序的任务
4.1.2 设计思路
只要问题可以满足分治的思想解决的,都可以使用MapReduce程序解决
4.1.3 执行过程
4.2 关系表的自然连接
5.MapReduce编程实践
参考博客
5.1 任务
5.2 编写map处理逻辑
5.3 编写reduce处理逻辑
5.4 编写main方法
完整代码