关于 SLO,我们需要了解什么?

什么是 SLO?

SLO(Service Level Objective)是服务质量目标的短语缩写。它通常指的是维护系统的最高级别的目标,或服务等级协议(SLA)中的服务质量目标。它能够定义客户和用户在使用软件系统时所期望的服务质量水平,并提供一个标准作为开发和运维团队的参考和评估。

对于观测云来说,SLO 是进行 SLA 评分处理的最小单元,是一个时间窗口内 SLI 累积成功数的目标。而我们又经常把 SLO 转化为错误预算,用于计算可容忍的错误数,在每一个检测周期内出现异常事件的时间将在可容错时长中扣除。如下图:假设 SLO 检测周期为 5 分钟,根据叠加后,异常事件覆盖时间为 3 分钟,扣除额度 3 分钟。

许多组织会借助 SLO 来评估产品可靠性。SLO 为定义应用程序性能的明确目标提供了一个框架,帮助团队提供一致的客户体验,平衡功能开发与平台稳定性,并改善与内部和外部用户的沟通。SLO 还有助于分离业务关注点,明确边界,合理化不同团队的期望。尽管 SLO 是确保可靠性的工具,但仅靠简单设置 SLO 目标不能达到这样的效果。基于组织当前能力制定符合实际的 SLO 会更有助于实现组织目标,设定超出能力的 SLO 可能适得其反。

SLO 可帮助确定问题的严重程度。如果可用性低于设定的 SLO,应通知工程师尽快响应。此外,SLO 可帮助明确划分服务的清晰边界,从而团队能确定需要维护哪些基础设施以及通知哪个团队解决问题。最后,基于满足 SLO 的情况,SLO 可辅助指导制定业务优先事项。

如何确定 SLO 目标?

在制定服务水平目标(SLO)时,要明确组织中的利益相关者会有不同的优先事项,由此产生不同的目标。从技术角度来看,Dev&Ops 需确保 SLO 可衡量且可行。如果任何 SLO 之间存在冲突或达到某个 SLO 会带来高成本,需及时提供预警。业务部门可与 Dev&Ops 合作,从而更好了解做出业务目标的取舍,并确定这些取舍如何有益于组织。例如,完成一款功能的设计后,可以决定设置较低的 SLO 以加快开发和发布功能的速度。

需要注意的是,各利益相关者的核心事项通常存在重叠,而非相互排斥。业务和技术团队之间的有效协作和一致性非常重要,这样才能充分发挥 SLO 的潜力。例如,CSM 了解客户的期望并确定他们最关心的事项,而工程师则可制定实现期望的最具实际性路径。

SLO 与 SLI

SLI(Service Level Indicator),也就是测量指标,即选择用于衡量系统稳定性的指标。SLO 为 SLI 设定了精确的目标。在观测云,我们基于监控器(《智能监控,高效观测 IT 系统瓶颈》)设定一个或多个测量指标。在观测云管理 SLO,以监控器的正常运行时间作为唯一衡量指标,我们就可以无缝访问监控数据。此时,我们可以把 SLI 理解为服务表现良好(即监控器未检测到异常事件)的时间比例。

例如,如果我们想确保用户请求得到快速响应,可以使用来自 APM 的服务中位数延迟作为 SLI。然后,在 SLO 中设置每分钟计算的所有用户请求的中位数延迟在任何时间段内 99% 的时间内都小于 250 毫秒。此时,为了准确追踪实际性能与我们设定的目标的比较情况,我们不仅需要监控实时性能(例如,每 60 秒计算一次中位数延迟并与250毫秒阈值进行比较),还要衡量该阈值在更长时间跨度上被超过的频率(以确保在每个时间段内都满足 99% 的目标)。观测云会跟踪我们的 SLI 并将其状态与我们设定的 SLO 进行可视化,因此我们可以立即看到实际性能与给定时间段内的目标的比较情况。

基于监控的 SLO 用例

在使用 SLO 的实践过程中,如下图所示,输入 SLO 任务名称后,首先需设定两个目标,即目标和最低目标。

  • 目标:当 SLO 百分比 < 目标百分比,且 >= 最低目标百分比时,被认定为不健康 SLA;
  • 最低目标:当 SLO 百分比 < 最低目标百分比时,被认定为不达标 SLA。

其次,选择一个最符合当下所需场景的 SLI。有一句话十分重要:所有 SLIs 都是衡量指标,但不是所有衡量指标都是好的 SLIs。因此,面对我们工作空间内的诸多衡量指标,我们应首先选择最能捕捉当下场景体验的指标

另外,选择需要发送异常通知的对象(包含空间成员、邮件组、企业微信机器人、钉钉机器人、飞书机器人、短信等);设置重复告警通知,从而减少告警通知频率,避免受到异常通知的不必要干扰;设定好检测频率(目前支持 5分钟、10分钟两种),从而以一定时间范围为周期,监测 SLO 任务中监控器是否出现异常事件。

新建完任务后,在 SLO 列表进一步分析 SLO 任务达标率、目标服务水平等之前离不开以下概念:

字段说明
监控器SLI 关联的监控器数量,即测量服务性能的指标。
达标率在给定考核周期内满足系统无异常时间占总时长的百分比(达标率=系统无异常时间/考核周期 * 100%):
  • 当最低目标百分比 =< 百分比 < 目标百分比时,被认定为不健康 SLA,显示为黄色达标率;
  • 当百分比 < 最低目标百分比时,被认定为不达标 SLA,显示为红色达标率。
故障时间即监控器异常的时间/已用额度。
剩余额度当前 SLO 还剩余的可容错时长(假设目标 SLO 设定为 95%,即存在 5% 的容错率,默认最近 7 天为周期,即默认剩余额度=7天 *5% = 21分钟),显示为:
  • 绿色:剩余的可容错时长 >= 0;
  • 红色:剩余的可容错时长 < 0。
目标创建 SLO 任务时设定的,服务可用性的目标百分比。

点击单条 SLO 任务进入其详情页,我们就可以观测到当前 SLO 的达标率、剩余额度及 SLI 异常记录:

字段说明
过去 7 天 SLA根据当前访问的时间获取近 7 天的达标率。
全年 SLA根据当前访问的时间获取今年(自然年)的达标率。
近一年 SLA根据当前访问的时间获取最近 1 年(自然年)的达标率。
SLI 异常记录基于当前 SLO 任务下的监控器所触发的异常事件。

SLO 与仪表板的完美联合

当组织内多个团队实施不同的 SLO 任务,那么将 SLO 的任务状态可视化能进一步帮助各团队设置任务优先级、解决问题。借助应用到仪表板的可视化办法,我们可以以一种更加全方位的方式与任何利益相关者共享这些 SLO 的实时状态。如下图,我们将该条 SLO 任务直接导出到仪表板。在仪表板内,我们可以看到 SLO 的状态、故障时间、错误预算、全年 SLA 等关键信息。

结语

协作和沟通对于成功实施服务水平目标至关重要。开发和运营团队需要评估他们的工作对于已建立的服务可靠性目标的影响,以改善最终用户的体验。观测云通过使组织借助统一入口方跟踪、管理和监控其所有 SLO 的状态和错误预算,简化了跨团队协作的繁琐流程。团队可以在仪表板上将其SLO 与相关服务和基础架构组件可视化,并与依赖于它们的任何利益相关者共享这些 SLO 的实时状态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/187850.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ssh的盘锦河蟹销售系统

摘 要 如今&#xff0c;互联网时代的到来&#xff0c;在社会环境的带动下&#xff0c;各行各业都被科技的发展推着前进。提高了生活效率&#xff0c;越来越多行业已经实现了信息管理自动化&#xff0c;商品销售行业也不例外。如今伴随着5G互联网时代的来到&#xff0c;网上浏览…

云服务器anaconda(py39)+pytorch1.12.0(cu113)

用xshell连接ip地址&#xff0c;端口号22&#xff0c;输入用户密码 查看当前版本 conda -V conda info --envs 如果不是需要的版本&#xff0c;使用 anaconda-clean --yes rm -rf anaconda3 删除文件夹 安装anaconda 2022 10 py3.9 wget https://repo.anaconda.com/archi…

<Linux>(极简关键、省时省力)《Linux操作系统原理分析之存储管理(2)》(15)

[TOC](《Linux操作系统原理分析之存储管理&#xff08;2&#xff09;》&#xff08;15&#xff09; 5 存储管理5.4 分页存储管理5.4.1 纯分页存储管理a.页&#xff08;页面&#xff09;和物理块&#xff08;帧&#xff09;b. 页面大小c. 逻辑地址结构 5.5 存储扩充技术5.5.2 交…

用友NC 漏洞

漏洞描述 用友ERP-NC 存在目录遍历漏洞&#xff0c;攻击者可以通过目录遍历获取敏感文件信息。 fofa&#xff1a; poc&#xff1a;/NCFindWeb?serviceIPreAlertConfigService&filename 在url处拼接poc后可以看到该站点的目录和文件 访问某个文件 /NCFindWeb?serviceIPr…

【JavaScript】3.4 JavaScript在现代前端开发中的应用

文章目录 1. 用户交互2. 动态内容3. 前端路由4. API 请求总结 JavaScript 是现代前端开发的核心。无论是交互效果&#xff0c;还是复杂的前端应用&#xff0c;JavaScript 都发挥着关键作用。在本章节中&#xff0c;我们将探讨 JavaScript 在现代前端开发中的应用&#xff0c;包…

上门服务系统|东郊到家软件提供高效服务的科技支柱

预约上门服务系统的崛起改变了传统服务行业的格局。用户不再需要亲自前往实体店面&#xff0c;而是通过几次点击就能享受到各类服务。这背后离不开预约上门服务系统的智能化和高效性&#xff0c;而源码正是这个系统的灵魂所在。下面小编就给大家介绍下上门服务系统开发优势。 1…

Gavin Wood:财库保守主义偏离了初心,应探索 Fellowship 等更有效的资金部署机制

波卡创始人 Gavin Wood 博士最近接受了 The Kusamarian 的采访&#xff0c;分享了他的过往经历、对治理的看法&#xff0c;还聊到了 AI、以太坊、女巫攻击、财库等话题。本文整理自 PolkaWorld 对专访编译的部分内容&#xff0c;主要包含了 Gavin 对治理、财库提案、生态资金分…

人工智能_机器学习056_拉格朗日乘子法原理推导_公式由来详解_原理详解---人工智能工作笔记0096

https://blog.csdn.net/Soft_Po/article/details/118332454 这里有老师的一篇文章介绍拉格朗日乘子法的原理推导 结合老师的这篇文章我们来看一下详细的推导过程 可以看到上一节我们说,一个有条件的,函数,可以转换为一个,无条件的函数, 根据拉格朗日乘子法,可以创建出一个等…

uc_09_创建新进程 exec() system()

1 什么是创建新进程(夺舍) 在前面文章中&#xff0c;我们学习了fork()函数用来创建子进程。 子进程是父进程的副本&#xff0c;复制父进程除代码段以外的其他数据&#xff0c;代码段数据和父进程共享。 子进程的PID与父进程不同&#xff1a; 而创建新进程则不同。 与fork()不同…

docker-compose;私有镜像仓库harbor搭建;镜像推送到私有仓库harbor

docker-compose&#xff1b;私有镜像仓库harbor搭建&#xff1b;镜像推送到私有仓库harbor 文章目录 docker-compose&#xff1b;私有镜像仓库harbor搭建&#xff1b;镜像推送到私有仓库harbordocker-compose私有镜像仓库harbor搭建镜像推送到私有仓库harbor docker-compose D…

论坛自动多播放源采集源码

论坛自动多播放源采集源码是一种用于自动抓取论坛中的多个视频播放源的程序源代码。它可以自动搜索并采集论坛中的多个视频播放源&#xff0c;帮助用户快速找到所需的视频资源。该源码可以帮助用户节省时间和精力&#xff0c;提高视频资源的获取效率。 演示 地 址&#xff1a;…

2023年小美赛认证杯A题太阳黑子预测(Sunspot Forecasting)思路模型代码解析

2023年小美赛认证杯A题&#xff1a;太阳黑子预测&#xff08;Sunspot Forecasting&#xff09; 【请电脑打开本文链接&#xff0c;扫描下方名片中二维码&#xff0c;获取更多资料】 一、问题重述 太阳黑子是太阳光球上的现象&#xff0c;呈暂时性斑点&#xff0c;比周围区域…

2023年中国金融科技研究报告

第一章 行业概况 1.1 定义 金融科技&#xff08;FinTech, Financial Technology&#xff09;代表了金融和技术的交汇。这一领域虽然处于发展的初期阶段&#xff0c;但已经展现出深远的影响力。金融科技的业务模式多样&#xff0c;涵盖了从传统金融服务的数字化转型到新兴技术…

索尼mxf覆盖部分恢复案例(索尼PMW-580)

索尼mxf覆盖部分恢复案例(索尼PMW-580) 索尼的摄像机型号是比较繁多的&#xff0c;高端系列基本上是以mxf文件为主&#xff0c;这一类案例之前处理不少&#xff0c;今天我们看一个索尼pmw-580摄像机删除后又覆盖的恢复案例。 故障存储:64G SD卡/Exfat文件系统 故障现象: 拍…

Kettle 浅入浅出

前言 最近又要迭代客户定制化的数据处理系统了。提到数据处理&#xff0c;不禁想到了以前使用过的 ETL 处理工具 Kettle。本文将对 Kettle 做一些简单的介绍。 Kettle 介绍 在介绍 Kettle 前先了解下什么是 ETL&#xff0c;ETL 是 Extract-Transform-Load 的缩写&#xff0c…

腹泻的原因,种类,风险因素,如何预防

谷禾健康 腹泻是常见的健康问题&#xff0c;相信绝大多数人在生活中都曾遭受过腹泻的困扰。 根据2016年柳叶刀期刊统计&#xff0c;慢性腹泻影响全世界 3%-20% 的成年人。全球每年有17亿儿童腹泻病例&#xff0c;腹泻是五岁以下儿童死亡的第五大原因&#xff0c;每年约有52.5万…

P1 什么是链表 C语言简单易懂

目录 前言 01 什么是链表 02 数组的特点 03 数组的缺点 3.1 删除数组其中一个元素 3.2 数组增加某个节点 04 链表 前言 &#x1f3ac; 个人主页&#xff1a;ChenPi &#x1f43b;推荐专栏1: 《 C 》✨✨✨ &#x1f525; 推荐专栏2: 《 Linux C应用编程&#xff08;概念…

Leetcode98 验证二叉搜索树

题意理解&#xff1a; 首先明确二叉树的定义&#xff0c;对于所有节点&#xff0c;根节点的值大于左子树所有节点的值&#xff0c;小于右子树所有节点的值。 注意一个误区&#xff1a; 根节点简单和左孩子&#xff0c;右孩子比大小是不够的&#xff0c;要和子树比&#xff0c;…

2024年天津天狮学院专升本专业课考试报名通知

天津天狮学院2024年高职升本科专业课报名时间考试时间通知 1.报名条件 报名条件和具体要求按照天津市招生委员会的文件规定执行。考生必须完成文化课报名环节&#xff0c;且填报天津天狮学院志愿&#xff0c;方可报考我校专业课考试。考生提供的各种证件应真实有效&#xff0…

数据结构和算法-树和二叉树的定义和基本术语和性质

文章目录 树的基本概念和相关术语相关的应用节点间的关系描述节点&#xff0c;树的属性描述有序树vs无序树树vs森林小结 树的相关性质考点1考点2考点3考点4考点5考点6小结 二叉树的相关概念和基本术语重要 &#xff08;五种状态&#xff09;特殊二叉树小结 二叉树的相关性质二叉…