告警解释
当操作系统的其它进程占用GTM实例监听端口号或双机端口号时,产生该告警。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
37013 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称 |
RoleName | 产生告警的角色名称 |
HostName | 产生告警的主机名 |
Instance | 产生告警的实例 |
对系统的影响
双机端口长时间被占用超过120s后,系统会自处理并恢复可用。但120s内,系统不可用。
系统自处理过程
- 如果监听端口或双机端口被占用,则该GTM实例进程无法启动,集群首先会尝试重新启动该进程,该段时间系统不可用。
- 如果在120s内该节点依然无法启动,集群会将GTM备实例升为GTM主实例,系统恢复可用。
可能原因
操作系统的其它进程占用GTM实例监听端口号或双机端口号。
处理步骤
- 查看告警原因。
- 查找产生告警的实例的GTM数据目录。
- 使用omm用户登录告警上报的节点。
- 初始化环境变量。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
- 执行gs_om -t status --detail系统反馈类似如下信息。
“/opt/huawei/Bigdata/mppdb/gtm”即为实例GTM的数据目录。
- 查找产生告警的实例的GTM数据目录。
- 假设该实例的GTM数据目录是“/opt/huawei/Bigdata/mppdb/gtm/”,使用以下命令打开gtm.conf文件:
vi /opt/huawei/Bigdata/mppdb/gtm/gtm.conf
找到GTM实例的监听端口参数port与双机监听端口参数local_port。
- 使用以下命令确认该端口是否被其它进程占用,假设该端口号是10000。
netstat -anp | grep 10000
如果GTM实例的监听端口或GTM实例的双机端口被占用,则查看是否是关键进程占用。
- 是,执行6。
- 否,执行4。
- 执行如下命令kill该进程。
kill -9 pid
- 查看告警是否仍然存在。
- 是,执行6。
- 否,处理完毕。
收集故障信息。
- 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
- 在“服务”下拉框中勾选“MPPDB”,单击“确定”。
- 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。