一、Hadoop 1.x 和 2.x 的区别
二、HDFS架构
1)NameNode(nn)
:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。(笔者把它简单理解为书的目录)
2)DataNode(dn)
:在本地文件系统存储文件块数据,以及块数据的校验和。(笔者把它简单理解为书中真正的内容)
3)Secondary NameNode(2nn)
:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
三、YARN架构
1)ResourceManager(RM)
- 处理客户端请求
- 监控NodeManager
- 启动或监控ApplicationMaster
- 资源的分配与调度
2)NodeManager(NM)
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
3)ApplicationMaster(AM)
- 负责数据的切分
- 为应用程序申请资源并分配给内部的任务
- 任务的监控与容错
4)Container
yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘等