1、故障现像
起初是我这有套RAC有点问题,我想重启1个节点,结果发现重启后该节点的IP能PING通,但SSH连不上去,对应的RAC服务也没有自动启动。
操作系统是solaris 11.3。由于该IP对应的主机是LDOM,于是我去主域上telnet对应的端口登录到管理CLI,发现如下的报错截图:
2、故障处理
起初我以为是上图红框的部分有问题,但检查了许久也没找到原因,登录系统里就是无法启动SSH,对应RAC的服务我手动启也是失败,CRS里任何故障日志都没有看到。
后来没办法给O记的工程师打了电话,发了这个截图咨询一下(国内400没有solaris的技术支持,打400只能转接到阿三哥那处理,沟通起来很麻烦,有一次修复solaris我这对话了1天才搞上)。
大佬看图一眼就发现了问题,原因为有个目录/szydrman挂载失败,系统进入到了维护模式,
报错提示就是/szydrman挂载点不为空,导致挂载失败(这点zfs和linux差别很大啊,linux挂载点里写了文件也能挂上)。
于是我在维护模式进到系统里,检查发现确实是有文件,不知道谁把文件扔挂载点里了(可能是之前什么原因挂载点掉了,同时有人往里写文件了)。
于是尝试把这个挂载点里的文件先移动到别的目录里,再重启系统就恢复了。
3、后记
总结就是自己粗心大意,不看提示。
solaris系统用的人越来越少了,虽说我这维护客户手上有,但是这个东西一直稳定,上线再也没调过,早就忘干净了。
国内能支持solaris的人也不多了,除了O记原厂工程师熟悉一些,再就是一些O的代理商的工程师会一些。
后来搜索了一下官方文档有这样一篇记录:
‘svc:/system/filesystem/local:default’ Goes Into Maintenance During Boot ‘zfs mount -a cannot mount ‘/rpool’: directory not empty’ (Doc ID 1503490.1)