了解银河麒麟操作系统更多全新产品,请点击访问:https://product.kylinos.cn
1.服务器环境以及配置
处理器: | Intel |
内存: | 1T |
【内核版本】
4.19.90-24.4.v2101.ky10.x86_64
【OS镜像版本】
银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-0524-x86_64
2.问题现象描述
宕机时间凌晨2点09分左右,系统异常卡死,后手动重启系统,恢复的故障环境。需系统层面,分析排查。
3.问题分析
分析系统日志,可知,系统重启时间为02:54左右。查看重启时间之前的messages日志信息,未看到有效报错日志,只有内核层面正常记录的audit审计模块相关日志信息输出,如图1、图2和图3:
图1
图2
图3
进一步分析,查看系统sar和kdump内核崩溃相关日志信息。发现此系统,未安装系统性能监控工具sysstat、禁用了kdump内核崩溃收集服务。如图4和图5:
图4 kdump服务disable禁用
图5 未安装sysstat
查看bmc日志,搜索error关键字,未排查到此次系统卡死,跟系统相关的信息,如图6:
图6
4.问题分析结果
综上,日志分析情况,未能通过系统和bmc日志,排查到有效报错信息。因未启用kdump服务,未收集到内核崩溃相关日志,无法判断系统卡死,是否跟系统内核有关。未安装系统性能监控工具sysstat, 没有收集到,系统性能日志,同样无法分析判断,系统卡死,是否跟CPU、内存、磁盘IO等资源异常使用有关。
5.后续计划与建议
建议,系统层,开启kdump服务,安装系统性能监控工具sysstat。等下次问题复现,收集到这些日志信息,可进一步分析,明确问题方向。
- 开启kdump服务,命令如下:
启动服务
#systemctl start kdump
#systemctl enable kdump
查看服务状态
# kdumpctl status
# systemctl status kdump.service
- 安装性能监控工具sysstat,命令如下:
软件包下载链接:
https://update.cs2c.com.cn/NS/V10/V10SP2/os/adv/lic/updates/x86_64/Packages/sysstat-12.2.1-6.ky10.x86_64.rpm
#rpm -ivh sysstat-12.2.1-6.ky10.x86_64.rpm
# systemctl start sysstat
# systemctl enable sysstat