一 概述
1.1 高可用评判指标
1.平均故障间隔(Mean Time Between Failure,简称 MTBF):表示两次故障的间隔时间,也就是系统正常运行的平均时间,这个时间越长,说明系统的稳定性越高;
2.故障恢复时间(Mean Time To Repair,简称 MTTR):表示系统发生故障后恢复的时间,这个时间越短,说明故障对用户的影响越小。
可用性(Availability)的计算公式:Availability= MTBF / (MTBF + MTTR) * 100%
只有当系统故障间隔时间越长,且恢复时间越短,系统的整体可用性才会更高。
1.2 流量治理的目标与策略
在保障系统高可用性的过程中,流量治理扮演着关键角色,是确保服务高效连续运行的不可或缺的环节.。常见的有如下
1.熔断。
二 流量治理的方案
2.1 熔断
熔断本质上是一种快速失败策略。旨在通过及时中断失败或超时的操作,防止资源过度消耗和请求堆积,从而避免服务因小问题而引发的雪崩效应。
流程:
当请求失败比率达到一定阈值之后,熔断器开启,并休眠一段时间(由配置决定)。这段休眠期过后,熔断器将处于半开状态,在此状态下将试探性地放过一部分流量,如果这部分流量调用成功后,再次将熔断器关闭,否则熔断器继续保持开启并进入下一轮休眠周期。
产品有:Google SRE 熔断器