一、引出问题
生产项目是用k8s部署的,最近经常遇到启动时注册不到nacos(查找nacos的host地址找不到),或者运行的好好的,突然也连不上nacos了(同样是查找nacos的host地址找不到)。
问题定位到,由于网络或其他问题,导致pod之间的网络出现了问题,导致根据服务名查找pod失败。
解决方案:考虑到几乎无法让pod自行连接上nacos了,所以考虑应用加上actuator健康检查,k8s加上探针,如果应用健康检查不通过,就重启pod。
二、解决方案
1、使用actuator健康检查
引入actuator健康检查,如果nacos注册失败,就重启容器
。
因为k8s已经支持了健康检查服务,每隔一段时间就会进行健康检查。
这里用到了spring-boot-starter-actuator
。
启动健康检查之后,访问/actuator/health
,会提示UP,如果nacos宕机或者网络连接不上,会提示DOWN,并且返回码是503:
如果nacos正常的话,status是UP,并且返回码是200:
2、项目启动时判断nacos是否正常连接
项目启动时,如果nacos连接不上,就会在main方法抛出异常:
根源就是调用nacos -server端的api时发生的异常,但是如果捕捉这个异常,就会对业务代码侵入性较强。
好在如果发生了这个异常,就会中断springboot项目的启动,用健康检查就非常的合适,此时健康检查的接口都调用不到。
3、k8s设置探针
参考文档:https://www.cnblogs.com/shenyuanhaojie/p/16439958.html
官方文档:https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/
目前的k8s健康检查,http请求只能根据响应码来判断,如果想通过json体来判断,恐怕需要自定义一个接口了(或者用正则进行解析)。
但是springboot自带的actuator,是可以根据服务的健康状态返回不同的响应码的。
以下是大模型 给的结果,没验证过:
所以,要加上restartPolicy
配置:
在Kubernetes(简称K8s)中,Pod的重启策略定义了当容器失败时kubelet如何处理。有三种主要的重启策略:
Always
:
这是默认的重启策略。如果设置了为“Always”,那么无论容器停止运行的原因是什么(无论是正常退出还是异常终止),kubelet都会自动重启该容器。这意味着只要Pod尚存在,即使容器连续出错,kubelet也会不断地尝试重启容器。
OnFailure:
如果设置为“OnFailure”,则只有当容器以非0状态退出码结束时,kubelet才会尝试重启该容器。若容器正常退出(即退出码为0),kubelet将不会进行重启操作。
Never:
当设置为“Never”时,kubelet将不会对任何原因导致停止运行的容器进行重启。一旦容器停止,它将保持停止状态,直到手动干预或关联的控制器采取行动。
OnCrash(崩溃时重启)
该策略主要用于DaemonSet中的Pod。只有在节点重启或Pod崩溃后,才会触发Pod的重启。
综上所述,每个Pod中的所有容器共享相同的重启策略,由Pod的spec.restartPolicy字段指定。需要注意的是,当Pod被控制器(如Deployment、StatefulSet等)管理时,即使Pod未明确指定重启策略,控制器也会根据自身逻辑控制Pod副本的重启行为。