文章目录
- 目录
- 1.Hadoop的发展与优化
- 1.1 Hadoop1.0 的不足与局限
- 1.2 Hadoop2.0 的改进与提升
- 2.HDFS2.0 的新特性
- 2.1 HDFS HA
- 2.2 HDFS Federation
- 3. 新一代的资源管理器YARN
- 3.1 MapReduce1.0 缺陷
- 3.2 YARN的设计思路
- 3.3 YARN 体系结构
- 3.4 YARN工作流程
- 3.5 YARN框架与MapReduce1.0框架进行对比
- 3.6 YARN的发展目标
- 4.Hadoop2.0 生态中具有代表性的功能组件
- 4.1 Pig
- 4.2 Tez
- 4.3 Spark
- 4.4 Kafka
目录
1.Hadoop的发展与优化
1.1 Hadoop1.0 的不足与局限
主要针对于Hadoop1.0中两大核心组件:MapReduce和HDFS有以下几点不足:
- 抽象层次低,需要人工编码(MapReduce需要人为的写map和reduce函数)
- 表达能力有限(MapReduce)
- 开发者自己管理作业之间的依赖关系(MapReduce)
- 难以看清程序的整体逻辑(MapReduce)
- 执行迭代操作效率低(MapReduce每次迭代写磁盘)
- 资源浪费(map-slot与reduce-slot不能共用)
- 实时性差(适用于批处理,不支持实时交互)
1.2 Hadoop2.0 的改进与提升
hdfs fedration只是提供管理多个命名空间,每个节点还是存在单点故障的问题,所以需要集合HDFS HA一起使用,即对HDFS Fedration中的每个节点创建一个附属的名称节点,作为单个节点的热备份。
Hadoop1.0 中的第二名称节点不是一个热备份的功能,湿冷备份,具体请查看之前的博客。
2.HDFS2.0 的新特性
2.1 HDFS HA
HDFS HA
2.2 HDFS Federation
3. 新一代的资源管理器YARN
3.1 MapReduce1.0 缺陷
3.2 YARN的设计思路
在Hadoop1.0 中,MapReduce既是一个大数据计算框架,又是一个资源和任务调度管理框架。
3.3 YARN 体系结构
3.4 YARN工作流程
3.5 YARN框架与MapReduce1.0框架进行对比
3.6 YARN的发展目标
4.Hadoop2.0 生态中具有代表性的功能组件
4.1 Pig
4.2 Tez
Tez是对MapReduce中的map和reduce过程进行优化,所以只要最终只要转换为map和reduce操作的都可以使用Tez进行优化。