1、背景
软件的质量是需要全生命周期进行关注的,在生产环境下QA的活动就是测试右移,测试右移最关键的手段就是线上监控,也是至关重要的一个环节,可以通过技术的手段,提前感知到线上问题和风险,先于用户提前发现问题,提升服务可感知性,从而降低客户投诉。
2、通用原则
【问自己的几个问题】:
监控是否完备?监控是否有报警?报警是否有责任人?如何评估监控和值班人跟进效果?
- 核心的接口、核心场景、核心链路必须100%接入线上监控;
- 监控要支持分级,不能眉毛胡子一把抓,需要根据业务实际情况,确定好监控级别,比如:L0级/L1级/L2级;
- 监控报警要及时准确的通知到相关责任人,包括:OP、RD、QA等,通知方式可以是邮件、短信、微信、钉钉等,也可以根据监控登记进行组合通知;
- 横向要支持域名、实例、机房、地域等类型的监控,这样在灰度发布或者批量上线时可以快速的发现和定位问题;
- 报警信息要言简意赅,那么在添加监控脚本的时候就需要考虑定位效率,输出关键重要的日志信息;
- 报警要考虑频率,考虑工作日、节假日、工作时间等因素,防止信息爆炸,过犹不及;
3、监控类型
监控有交叉也是必要