序言

在Hadoop 2.X以前的版本，NameNode面临单点故障风险（SPOF），也就是说，一旦NameNode节点挂了，整个集群就不可用了，而且需要借助辅助NameNode来手工干预重启集群，这将延长集群的停机时间。
Hadoop 2.X版本只支持一个备用节点用于自动恢复NameNode故障，即HDFS 支持一主一备的架构
Hadoop 3.X版本则支持多个备用NameNode节点，最多支持 5 个，官方推荐使用 3 个

基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用cuiyaonan2000@163.com

High Available Of HDFS

总体架构图如下所示

Hadoop 实现自动故障切换需要用到下面的组件：

ZooKeeper
ZKFailoverController 进程（ZKFC）

ZooKeeper

ZooKeeper quorum 是一种集中式服务，主要为分布式应用提供协调、配置、命名空间等功能。它提供组服务和数据同步服务，它让客户端可以实时感知数据的更改，并跟踪客户端故障。HDFS故障自动切换的实现依赖下面两个方面：

故障监测：ZooKeeper维护一个和NameNode之间的会话。如果NameNode发生故障，该会话就会过期，会话一旦失效了，ZooKeeper将通知其他NameNode启动故障切换进程。
活动NameNode选举：ZooKeeper提供了一种活动节点选举机制。只要活动的NameNode发生故障失效了，其他NameNode将从ZooKeeper获取一个排它锁，并把自身声明为活动的NameNode。

ZKFailoverController（ZKFC）

ZKFC 是 ZooKeeper 的监控和管理 namenode 的一个客户端。所以每个运行 namenode 的机器上都会有 ZKFC。

那ZKFC具体作用是什么？主要有以下3点：

状态监控：ZKFC 会定期用 ping 命令监测活动的 NameNode，如果 NameNode 不能及时响应ping 命令，那么 ZooKeeper 就会判断该活动的 NameNode 已经发生故障了。

ZooKeeper会话管理：如果 NameNode 是正常的，那么它和 ZooKeeper 会保持一个会话，并持有一个 znode 锁。如果会话失效了，那么该锁将自动释放。

基于ZooKeeper的选举：如果 NameNode 是正常的，ZKFC 知道当前没有其他节点持有 znode 锁，那么 ZKFC 自己会试图获取该锁，如果锁获取成功，那么它将赢得选举，并负责故障切换工作。这里的故障切换过程其实和手动故障切换过程是类似的；先把之前活动的节点进行隔离，然后把 ZKFC 所在的机器变成活动的节点。

要求

如此来讲NameNode之间不会有直接的交互,NameNode只通过ZKFC跟ZooKeeper连接,以此来保证可用性,
各个NameNode会实时监控JournalNode,查看是否有新的变化,如果有就自动更新到自己的环境中,以此来保证一致性.cuiyaonan2000@163.com

NameNode服务器：运行NameNode的服务器应该有相同的硬件配置。

JournalNode服务器：运行的JournalNode进程非常轻量，可以部署在其他的服务器上。注意：必须允许至少3个节点。当然可以运行更多，但是必须是奇数个，如3、5、7、9个等等。

当运行N个节点时，系统可以容忍至少(N-1)/2(N至少为3)个节点失败而不影响正常运行。

在HA集群中，standby状态的NameNode可以完成checkpoint操作，因此没必要配置Secondary NameNode、CheckpointNode、BackupNode。如果真的配置了，还会报错。

配置

core-site.xml

 <!-- 指定 NameNode 的地址 单节点<property><name>fs.defaultFS</name><value>hdfs://centos1:8020</value></property>--><!-- Namenode高可用配置-自定义集群名称,且不用指定端口号 --><property><name>fs.defaultFS</name><value>hdfs://mycluster</value></property><!-- 指定 hadoop 数据的存储目录,最大的作用就是可以被其他地方引用这个公用的开头路径,比如hdfs.xml中就用到了 --><property><name>hadoop.tmp.dir</name><value>/opt/hadoop3.2/data</value></property><!-- 配置ZKFC进程连接zookeeper的地址 --><property><name>ha.zookeeper.quorum</name><value>centos1:2181,centos2:2181,centos3:2181</value></property><!--如下的内容可以不用配置cuiyaonan2000@163.com --><!-- 配置 HDFS 网页登录使用的静态用户为 bigdata --><property><name>hadoop.http.staticuser.user</name><value>bigdata</value></property><!--置超级代理--><property><name>hadoop.proxyuser.bigdata.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.bigdata.groups</name><value>*</value></property>

hdfs-site.xml

 <!--nn web 端访问地址
<property>
<name>dfs.namenode.http-address</name>
<value>centos1:9870</value>
</property>
2nn web 端访问地址
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>centos3:9868</value>
</property>--><!-- namenode服务逻辑id ,注意跟core.xml中的名称要一致--><property><name>dfs.nameservices</name><value>mycluster</value></property><!-- namenode服务mycluster下3个节点 --><property><name>dfs.ha.namenodes.mycluster</name><value>nn1,nn2,nn3</value></property><!-- 节点通讯地址 --><property><name>dfs.namenode.rpc-address.mycluster.nn1</name><value>centos1:8020</value></property><property><name>dfs.namenode.rpc-address.mycluster.nn2</name><value>centos2:8020</value></property><property><name>dfs.namenode.rpc-address.mycluster.nn3</name><value>centos3:8020</value></property><!-- web ui地址 --><property><name>dfs.namenode.http-address.mycluster.nn1</name><value>centos1:9870</value></property><property><name>dfs.namenode.http-address.mycluster.nn2</name><value>centos2:9870</value></property><property><name>dfs.namenode.http-address.mycluster.nn3</name><value>centos3:9870</value></property><!-- 指定NameNode元数据在JournalNode上的存放位置 --><property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://centos1:8485;centos2:8485;centos3:8485/mycluster</value></property><!--  the Java class that HDFS clients use to contact the Active NameNode -->
<!-- 
这个属性Hadoop提供了两种自带的实现：ConfiguredFailoverProxyProvider 和RequestHedgingProxyProvider
ConfiguredFailoverProxyProvider :表示按照配置去找启动的namenode
RequestHedgingProxyProvider: 首先会并发的向每个NN发送请求来判定哪个是ANN，然后接下来的请求就直接向ANN发送请求。--><property><name>dfs.client.failover.proxy.provider.mycluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property><!-- 配置隔离机制，即同一时刻只能有一台服务器对外响应 --><property><name>dfs.ha.fencing.methods</name><value>sshfence</value><value>shell(/bin/true)</value></property><!-- 使用隔离机制时需要ssh无秘钥登录--><property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_rsa</value></property><property><name>dfs.ha.nn.not-become-active-in-safemode</name><value>true</value></property><!-- 故障情况自动切换 --><property><name>dfs.ha.automatic-failover.enabled</name><value>true</value></property><!-- Namenode 数据存储目录--><property><name>dfs.namenode.name.dir</name><value>${hadoop.tmp.dir}/name</value></property><!-- Datanode 数据存储目录--><property><name>dfs.namenode.data.dir</name><value>${hadoop.tmp.dir}/data</value></property><!-- journalnode 数据存储目录--><property><name>dfs.journalnode.edits.dir</name><value>${hadoop.tmp.dir}/jn</value></property>

yarn-site.xml

yarn也支持高可用,同时依赖于zookeeper

 <!-- 指定 ResourceManager 的地址 单节点 --><!--
<property>
<name>yarn.resourcemanager.hostname</name>
<value>centos2</value>
</property>
-->  <!-- 指定 MR 走 shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 环境变量的继承  这段我觉得可以不用弄--><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property><!-- hadoop classpath输出以下路径  这段我觉得可以不用弄 --><property><name>yarn.application.classpath</name><value>/opt/hadoop3.2/etc/hadoop:/opt/hadoop3.2/share/hadoop/common/lib/*:/opt/hadoop3.2/share/hadoop/common/*:/opt/hadoop3.2/share/hadoop/hdfs:/opt/hadoop3.2/share/hadoop/hdfs/lib/*:/opt/hadoop3.2/share/hadoop/hdfs/*:/opt/hadoop3.2/share/hadoop/mapreduce/lib/*:/opt/hadoop3.2/share/hadoop/mapreduce/*:/opt/hadoop3.2/share/hadoop/yarn:/opt/hadoop3.2/share/hadoop/yarn/lib/*:/opt/hadoop3.2/share/hadoop/yarn/*</value></property><!-- 开启resourcemanager HA--><property><name>yarn.resourcemanager.ha.enabled</name><value>true</value></property><!-- 自定义一个resourcemanager的逻辑集群id--><property><name>yarn.resourcemanager.cluster-id</name><value>yarn-cluster</value></property><!-- 指定resourcemanager集群的逻辑节点名称列表--><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2,rm3</value></property><!-- rm1的节点信息--><property><name>yarn.resourcemanager.hostname.rm1</name><value>centos1</value></property><!-- yarn web页面地址  --><property><name>yarn.resourcemanager.webapp.address.rm1</name><value>centos1:8088</value></property><!-- rm1 对客户端暴露的地址，客户端通过该地址向RM提交任务等 --><property><name>yarn.resourcemanager.address.rm1</name><value>centos1:8032</value></property><!-- rm1 与 applicationMaster的通信地址  --><property><name>yarn.resourcemanager.scheduler.address.rm1</name><value>centos1:8030</value></property><!-- rm1 与 nm的通信地址  --><property><name>yarn.resourcemanager.resource-tracker.address.rm1</name><value>centos1:8031</value></property><!-- rm2的节点信息--><property><name>yarn.resourcemanager.hostname.rm2</name><value>centos2</value></property><!-- yarn web页面地址  --><property><name>yarn.resourcemanager.webapp.address.rm2</name><value>centos2:8088</value></property><!-- rm2 对客户端暴露的地址，客户端通过该地址向RM提交任务等 --><property><name>yarn.resourcemanager.address.rm2</name><value>centos2:8032</value></property><!-- rm2 与 applicationMaster的通信地址  --><property><name>yarn.resourcemanager.scheduler.address.rm2</name><value>centos2:8030</value></property><!-- rm2 与 nm的通信地址  --><property><name>yarn.resourcemanager.resource-tracker.address.rm2</name><value>centos2:8031</value></property><!-- rm3的节点信息--><property><name>yarn.resourcemanager.hostname.rm3</name><value>centos3</value></property><!-- yarn web页面地址  --><property><name>yarn.resourcemanager.webapp.address.rm3</name><value>centos3:8088</value></property><property><name>yarn.resourcemanager.address.rm3</name><value>centos3:8032</value></property><!-- rm3 与 applicationMaster的通信地址  --><property><name>yarn.resourcemanager.scheduler.address.rm3</name><value>centos3:8030</value></property><!-- rm3 与 nm的通信地址  --><property><name>yarn.resourcemanager.resource-tracker.address.rm3</name><value>centos3:8031</value></property><!-- 配置zookeeper信息  --><property><name>yarn.resourcemanager.zk-address</name><value>centos1:2181,centos2:2181,centos3:2181</value></property><!-- 启动自动恢复 --><property><name>yarn.resourcemanager.recovery.enabled</name><value>true</value></property><!-- 配置将recourcemanager的状态信息存储在zookeeper中 --><property><name>yarn.resourcemanager.store.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value></property><!-- 开启日志聚集功能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址 --><property><name>yarn.log.server.url</name><value>http://centos1:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>

mapred-site.xml

这个配置文件没什么变动

 <!-- 指定 MapReduce 程序运行在 Yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address</name><value>centos1:10020</value></property><!-- 历史服务器 web 端地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>centos1:19888</value></property>

workers------从主节点上启动，会去启动这里面包含的子节点。

这里增加工作节点的ip或者机器名，如：

centos1
centos2
centos3

启动

启动zookeeper集群

初始化ZKFC

ZKFC用于监控active namenode节点是否挂掉，通知其它节点上的ZKFC强行杀死自己ZKFC节点上的namenode（防止其假死状态产生集群namenode脑裂的发生），然后选举出其他namenode为active节点。首次在主节点执行

初始化 HA 在 Zookeeper 中状态：bin/hdfs zkfc -formatZK

启动journalnode进程

每个节点执行:${HADOOP_HOME}/bin/hdfs --daemon start journalnode (如果是使用start-dfs.sh 启动则该进程也会自动启动)

`启动namenode`

主节点执行

/bin/hdfs namenode -format //另把格式化后的namenode目录下测current复制到其它机器上cuiyaonan2000@163.com
/sbin/start-dfs.sh //一键启动所有服务,另网上有种启动方式使用了命令hdfs namenode -bootstrapStandby 这种方式是不需要zookeeper手动实现的