1.Hadoop安装
Apache的国内镜像地址:
地址1:http://mirror.bit.edu.cn/apache/
地址2:https://mirrors.tuna.tsinghua.edu.cn/apache
Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?
Hadoop安装教程
2.HDFS(Hadoop Distributed File System)
2.1 HDFS基本概念
HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元
HDFS中有两类节点NameNode和DataNode
namenode:
是管理节点,存放文件元数据
元数据包含两个部分:
-
文件与数据块的映射表
-
数据块与数据节点的映射表
datanode:
是hdfs的工作节点,存放数据块
2.2 数据管理策略
1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠
2.心跳检测
DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;
3.二级NameNode
当NameNode挂掉SecondaryNameNode会替代其位置
2.3 HDFS读取文件流程
客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;
客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;
3.MapReduce
3.1 MapReduce的原理
mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.
1、mapreduce是一个并行计算的框架;
2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;
3、mapreduce的过程:input split->shuffle->output。
4、shuffle机制
- map task是由并发数决定的,有多少个切片就启动多少个map task
- 切片是逻辑概念,指文件中数据偏移量的范围
- 切片的具体大小应该根据文件的大小来调整
3.2 MapReduce的运行流程
MapReduce作业执行过程
MapReduce 容错机制
- 重复执行,一次任务失败,会进行重试,4次
- 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个
JobTracker 功能职责
- 作业调度
- 分配任务,监控任务执行进度
- 监控TaskTracker的状态
4.YARN
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
5.Hadpoop生态