自建starrocks集群,有时候服务会挂掉,无法自动拉起服务,于是采用supervisor进行进程守护。可能是版本的原因,supervisor程序总是异常,无法对fe//be进行守护。于是写了个简易脚本。
#!/bin/bash
AppNameFe=com.starrocks.StarRocksFE
AppPortFe=9030
AppNameBe=starrocks_be
AppPortBe=9050
Dtime="$(date +%Y%m%d%H%M%S)"while true
do#这里查询指定的app是否运行,查询的时候去除包含grep的结果,如果没有改进程,返回空字符串appFind=`ps -ef | grep ${AppNameFe} | grep -v grep`appRunid=`ss -tlnp|grep ${AppPortFe}|awk -F',' '{print $2}'|awk -F'=' '{print $2}'`findNum=${#appFind}findPort=${#appRunid}if [ ${findNum} -lt 1 ] | [ ${findPort} -lt 1 ];then#相对路径,执行与shell脚本同目录下的程序echo "$Dtime fe进程异常,${AppPortFe} 端口不存在,现拉起服务..." >> /tmp/programfude.log/opt/StarRocks/fe/bin/stop_fe.shsleep 3s/opt/StarRocks/fe/bin/start_fe.sh --daemon fi#这里查询指定的app是否运行,查询的时候去除包含grep的结果,如果没有改进程,返回空字符串appFind=`ps -ef | grep ${AppNameBe} | grep -v grep`appRunid=`ss -tlnp|grep ${AppPortBe}|awk -F',' '{print $2}'|awk -F'=' '{print $2}'`findNum=${#appFind}findPort=${#appRunid}if [ ${findNum} -lt 1 ] | [ ${findPort} -lt 1 ];then#相对路径,执行与shell脚本同目录下的程序echo "$Dtime be进程异常,${AppPortBe}端口不存在,现拉起服务..." >> /tmp/fudeservice.log/opt/StarRocks/be/bin/stop_be.shsleep 3s/opt/StarRocks/be/bin/start_be.sh --daemon fi #每30秒查询一次,所以sleep60,根据所需调整,单位为秒sleep 30
done
chmod +x processdaemon.sh
nohup ./processdaemon.sh &