为验证AIX HACMP集群系统的稳定性及保障其上应用的连续性和可靠性,决定周五晚进行集群切换测试。下面是当次过程的文档总结和记录,方便以后参考并备案。
系统环境:AIX 5.3
数据库: DB2 V8.2
存储: IBM DS4700,为两节点配置使用共享存储
AIX HACMP原理示意图:
HA测试一: 启动和关闭
在当前系统中确保VG在两边都被varyoff
#smitty clstart 启动HA
tail –f /tmp/hacmp.out 看启动输出信息
tail –f /tmp/cm.log 看错误信息
netstat –i 和 –in 看IP地址是否变为service地址
lsvg –o 查看VG是否在两台机器上被varyon
l***c –g cluster 看相应SRC是否起来(应该显示2或3个SRC)
如:Subsystem Group PID Status
clsmuxpdES cluster 213488 active
clstrmgrES cluster 238062 active
clinfoES cluster 229656 active
#smitty clstop 关闭HA
graceful(正常)/takeover(接管)/force(强制,IP不变回boot)
这里就选graceful
tail –f /tmp/hacmp.out 看关闭输出信息
tail –f /tmp/cm.log看错误信息
netstat –i 和 –in看IP地址是否变为boot地址
l***c –g cluster看相应SRC是否已关闭(应该无显示)
使用Cluster Snapshot可以保存当前Cluster配置,以后直接Apply就可恢复。
HA测试二:本机IP接管
确定两台机器HA已正常启动。
拔去与主机service IP关联的网卡的网线。
在主机上运行:
netstat –i 和 –in
这时standby网卡将接管service IP而原service网卡将对应standby IP。
备机不发生任何反应。
插回主机上拔去的网线并运行:
netstat –i 和 –in
这时主机没有任何复原动作,原standby网卡仍对应service IP而原service网
卡仍对应standby IP,即便关闭HA也不会变回来。
要使网卡恢复最初的对应IP,可以运行:
smitty mktcpip
选定网卡(en0, en1, ... ),不作任何改动回车。
HA测试三:资源接管
确定两台机器HA已正常启动。
模拟主机异常终止运行:
方法一:主机上运行:
smitty clstop 关闭方式选takeover
这种测试是主动告诉对方需要接管,并不是真正模拟了故障,可以
在进行真正故障模拟之前先进行这一步测试。
方法二:主机上运行halt –q即时关机(最佳方法)。
方法三:同时拔去主机所有网线和心跳线。
方法四:主机拔电(不建议)。
在备机上运行:
netstat –i 和 –in
如果备机也有service网卡(在cascading,即mutual takeover配置下),这时备机
的standby网卡将接管主机的service IP;
如果备机没有service网卡(在rotating,即standby配置下),这时备机的boot网
卡将接管主机的service IP。
当备机有svc地址:
这是资源组会在备机上挂起来,如果没有挂上,则在备机上运行:
varyonvg datavg
mount -a (或一个一个的挂)
在resource group中定义的FS应该在备机上自动mount。
最后测试应用是否正常,完成集群切换测试报告。