交换机升级导致部分网络通信超时, 集群的namenode主从切换后,主namenode进程被杀死。
网络问题导致namenode与zk间的连接超时触发了hadoop集群的防脑裂机制而主动kill掉了超时的namenode进程。
日志分析发现zk和namenode之间的网络连接超时:
超时触发了namenode切换,并将超时的active状态的namenode杀掉来防止集群脑裂。查看日志发现namenode切换为active之前为了防止集群脑裂,主动ssh到原来的namenode集群上把namenode端口杀掉了。 日志如下:
集群就直接ssh到强制kill原namenode进程