二、SLO健康度——从0到1构建SLO
和大多互联网企业一样,蚂蚁的基础设施侧存在众多的异构系统,被上层的业务应用和服务所依赖。考虑到不同系统的技术栈、架构、部署等因素,我们需要找到一种通用的、泛化性强的数字化方案指导和构建基础设施域内的健康度体系。基于这样的客观现状,我们开启了蚂蚁基础设施域内从0到1的SLO健康度体系建设和实践。
系统架构
基于SLO的健康度体系具备很多优势,然而所有的提升都是需要代价的,在建设SLO过程当中也需要更多地投入,这也意味着我们迈进了精细化运维的阶段。从整体上看,我们把SLO的健康度体系分成了4层结构: 最下层是目标系统的运行层,是提供服务的对象实体,包括基础设施域内所有提供服务的应用和系统;其上是SLO的数据层,数据层包括SLI数据收集、SLO数据加工、数据展示、SLO元数据建模、数据清洗、以及常见分析的数据抽取等;再之上是基于SLO数据的场景分析处理能力层,包括基于场景的更高级的数据分析能力、异常检测、故障发现、故障定位、预案关联、以及相关产品建设等能力;最上层则是基于场景能力划分的应用层,用于数据通晒的SLO健康度大盘、健康度应急流水线、辅助计价和成本分摊等应用,赋能到质量、效率、稳定性、成本等具体场景中去。
数据加工
实践之初,我们主要是基于GitOps和Prometheus来构建SLO健康度体系。通过Git管理SLO相关的定义和元数据,以Yaml的形式推送到部署在K8S集群的Prometheus上,Prometheus会按照Yaml中定义的规则抓取、计算和存储目标系统的SLO数据,结合Grafana实现SLO数据的透视和可视化。同时,基于Prometheus上配置的Recording rules可以实现基于SLO的告警能力,再结合电话、邮件、钉钉等渠道完成告警通知。另外,利用Prometheus的SLO告警和时序数据,我们实现了故障发生时的异常检测、定位和下钻能力,再加上故障管理过程中沉淀的历史专家经验数据,针对部分运维场景实现了基于故障定位结果的预案推荐,打造了基于SLO健康度数据的一站式应急解决方案。
宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长