告警解释
当操作系统的其它进程占用双机监听端口号时,产生该告警。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
37012 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称 |
RoleName | 产生告警的角色名称 |
HostName | 产生告警的主机名 |
Instance | 产生告警的实例 |
对系统的影响
如果双机端口被占用超过120s,系统恢复可用。
系统自处理过程
- 如果双机端口被占用,则gaussdb进程无法启动,集群首先会尝试重新启动gaussdb,该段时间系统不可用。
- 如果在120s内若该节点依然无法启动,集群会让相应的DN备实例升为DN主实例,系统恢复可用。
可能原因
操作系统上其它进程占用了双机监听端口。
处理步骤
查看告警原因。
- 查找产生告警的DN实例的数据目录。
- 使用omm用户登录告警上报的节点。
- 初始化环境变量。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
- 执行gs_om -t status --detail系统反馈类似如下信息。
“/srv/BigData/mppdb/data1/master1”即为DN 1实例的数据目录。
- 假设该实例的数据目录是“/srv/BigData/mppdb/data1/master1”,使用以下命令打开postgresql.conf文件:
vi /srv/BigData/mppdb/data1/master1/postgresql.conf
找到replconninfo1参数,其定义的localport为双机监听端口。使用以下命令确认该端口是否被其它进程占用,假设该端口号是10000。netstat -anp | grep 10000
如果有进程占用该端口,则查看是否是关键进程占用。
- 是,执行5。
- 否,执行3。
- 执行以下命令kill该进程。
kill -9 pid
- 查看告警是否仍然存在。
- 是,执行5。
- 否,处理完毕。
收集故障信息。