一站式云原生智能告警运维平台——SLS新版告警发布!

简介: 本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台——SLS新版告警。

前言

本篇是SLS新版告警系列宣传与培训的第一篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。

 

系列目录(持续更新)

  • 一站式云原生智能告警运维平台——SLS新版告警发布!(本篇)
  • 这才是可观测告警运维平台——20个SLS告警运维场景
  • 可观测告警运维系统调研——SLS告警与多款方案对比

 

1. 云原生观测告警

1.1. 业务发展对开发运维的挑战

现代业务发展对开发运维提出了新的挑战,具体如下:

image.png

 

1.1.1. 业务:稳定性要求越来越高

参考AIOps的目标与挑战,随着越来越多的业务云化数字化,例如今年开始大热的在线教育,任何一个稳定性、可靠性等异常都将给业务带来巨大的损失。要求SLA(服务可靠性)越高越好、MTTR(问题平均修复时间)和Cost(成本)越低越好。

在各大云厂商,也指定了非常多的稳定性制度和要求,例如1-5-10(1分钟发现问题,5分钟定位问题,10分钟解决问题)准则。

 

1.1.2. 系统:复杂性越来越高

随着开发模式(敏捷开发、DevOps)、系统架构(分层、微服务)、部署模式(容器化、云原生)、和基础设施(多云、混合云)的快速演变,系统变得原来越复杂。当系统出现问题时,如何发现问题、排查定位原因、解决问题就越来越困难。从监控运维的角度,系统的可观测性也逐步成为是一个基本要求。

image.png

 

1.1.3. 工程师:职责越来越大

因为前述原因,系统从研发集成到上线前后的各个阶段,有大量的工作需要做,不同人员参与的协同会大大降低响应速度,越来越多的公司要求一专多能。开发、测试、运维融合逐步成为趋势,开发人员逐步开始承担测试的工作、部分的运维甚至运营的工作。

image.png

随着业务数字化时代的到来,可预见到运营角色更深入的与开发、运维角色融合也是一个趋势,也就是说开发工程师未来投入到运营(Ops)的时间也会逐步增加。

image.png

 

1.2. 什么是可观测性

传统监控一般以一个白盒方式监控系统,专注发现核心指标异常,例如500错误,客户订单成功率等。一般这种问题发生时,准取性极高(例如大量500错误,大量订单失败,一定表示SLA有问题),一般也都比较严重。因为是黑盒,进一步排错和修复时间和成本极大,往往给开发运维人员带来极大压力。

image.png

根据海恩法则(Heinrich's Law),每一起严重事故背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。如果提前处理那些不那么严重的问题、先兆或者隐患,其实是可以避免后续的严重事故的,也就避免了其带来的巨大压力和损失。

image.png

可观测性是对传统监控的升级,其要求进行白盒化监控,对各种可能的隐患、先兆、不严重问题进行监测、跟踪处理。且不再只是在发布后,而是在开发、测试阶段就进行。

image.png

因此对比两者,可以发现,传统监控主要由SRE人员系统外部进行监控,关注指标,发现问题(Know What);而可观测性DevOps人员系统内部进行监控,关注指标、日志和跟踪等数据各种数据,发现问题并挖掘原因(Know Why)。

 

1.3. 可观测性的挑战

根据AIOps平台方案选择,可知各种监控数据(指标、日志、跟踪等)的中台都有各种方案,同样的监控系统也有非常多的选择。

image.png

主要挑战就是:

  1. 数据覆盖不完整、存在数据孤岛(无法关联协同)
  2. 使用门槛高,不人性化

 

1.4 告警运维系统的痛点

可观测性对于告警监控运维系统是有很高的要求的,但现状却不容乐观,我们可以看到常规监控运维系统存在如下6大痛点

image.png

 

具体展开细化如下:

image.png

 

2. 什么是SLS告警运维系统

2.1. SLS(日志服务)是什么

SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。

image.png

 

2.2. SLS新版告警——一站式智能告警运维系统

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

image.png

 

可以看到新版告警由4个模块组成:告警监控、告警管理、通知(行动)管理以及即将发布的开放告警组成。下面逐步介绍各个模块的作用。

 

2.3. 优势

使用SLS新版告警,可以有效缓解前面提到的告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

image.png

 

2.4. 告警监控概述

通过告警监控规则配置,定期检查评估,查询统计源日志、时序存储,按照监控编排逻辑,评估结果,并触发告警或恢复通知,最终发送给告警策略

image.png

 

告警监控提供的功能可以分为如下3类:

image.png

基础能力

其中值得强调的是SLS告警监控的基础能力支持大规模日志/时序/跟踪等实时监控,而查询统计语法也是使用通用统一的SQL(并扩展)的方式提供。也就是SQL = Search + PromQL + SQL92。

例如对特定机器是否在线监控,可以使用SQL、PromQL、或者两者子查询协同、甚至多层嵌套使用机器学习的算法来找出异常。

image.png

 

其中机器学习算法是直接在SQL扩展方式提供,覆盖了以下4个场景:

image.png

 

2.5. 告警管理

每一个告警监控规则会将触发的告警(含恢复通知)发送给一个预先配置的告警策略,通过告警策略配置,对所有接受到的告警进行路由分派、抑制、去重、静默、合并操作,后再分派给特定行动策略

通过告警中心控制台可以管理告警的状态(包括设置处理人),和查看告警链路与规则态势。

image.png

 

告警管理提供的功能也可以分为3类,如下:

image.png

2.6. 行动(通知)管理

每一个告警策略根据配置分派合并后将每个告警合并集合发送给特定的行动策略。由行动策略根据配置动态分派给特定通知渠道通知到特定的人/组/值班组,也支持告警未及时处理下的通知升级。

image.png

 

行动(通知)管理提供的功能也可以分为3类,如下:

image.png

 

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513881.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ansible 修改文件变量_基于ansible的批量配置生成

背景网络运维,我们有很多时间是在准备配置的路上,咱们之前也讲过,从脑海中或者是从自己的宝藏笔记中找出模板,一顿操作猛如虎,Ctrl C Ctrl V。这个过程是十分危险的,因为人不是机器,肯定会出错&…

Fluid — 云原生环境下的高效“数据物流系统”

简介: 为了解决大数据、AI 等数据密集型应用在云原生计算存储分离场景下,存在的数据访问延时高、联合分析难、多维管理杂等痛点问题,南京大学 PASALab、阿里巴巴、Alluxio 在 2020 年 9 月份联合发起了开源项目 Fluid。Fluid 本质上是一个云原…

普通大学生的 Java 开发能力到什么水平才能进大厂?

对于刚开始接触编程的同学来说,选择一门合适的编程语言非常重要。Java一直以来都是被广泛使用的语言,其服务端开发占比90%,83次在TIOBE排行第一,是很多程序员的首选语言。在发展前景方面,Java的就业范围很广&#xff0…

delphi7 如何判定dbgrid两行重复_教你如何在服装上加入好看的毛线刺绣花边

有时候一件旧衣服我们给它添加一些新的元素,会产生意外惊喜的效果。今天,我们就来学学如何用毛线在衣服上刺绣花边,让衣服变得更加漂亮的方法吧!在本教程中,我们使用了一些零头羊毛线,11号木针和用于刺绣的…

阿里的 RocketMQ 如何让双十一峰值之下 0 故障?

简介: 2020 年双十一交易峰值达到 58.3 W 笔/秒,消息中间件 RocketMQ 继续数年 0 故障丝般顺滑地完美支持了整个集团大促的各类业务平稳。 作者 | 愈安 来源 | 阿里巴巴云原生公众号 2020 年双十一交易峰值达到 58.3 W 笔/秒,消息中间件 Roc…

英特尔携手谷歌云加速最新虚拟机;谷歌云平台下调抽成比例;Hitachi Vantara推出全新云成本优化服务...

NEWS新闻回顾GitLab 将上市随着收入持续增长和亏损扩大,DevOps 宠儿 GitLab 终于申请了首次公开募股 (IPO)。GitLab 一直致力于成为开发人员的一站式商店,与 GitHub(2018 年被微软以 75 亿美元高价收购)和其他 DevOps 公司竞争。在…

eq linux_音乐家和音乐爱好者的开放硬件 | Linux 中国

从 3D 打印乐器到无线播放声音的设备,有很多通过开放硬件项目来奏乐的方法。-- Michael Weinberg这个世界到处都是很棒的开源音乐播放器,但为什么只是将开源用在播放音乐上呢?你还可以使用开源硬件奏乐。本文中描述的所有工具都是经过了开源硬…

“匿名句柄” 是一切皆文件背后功臣……

作者 | 奇伢 来源 | 奇伢云存储匿名 fd 的样子?我们经常在 /proc/${pid}/fd/ 下面能看到 anon_inode : 前缀的句柄,如下:rootubuntu:~/temp# ll /proc/5398/fdlr-x- 1 x x 64 Aug 4 9:9 8 -> anon_inode:inotify lrwx- 1 x x 64 Aug …

Flink集成Iceberg在同程艺龙的实践

简介: 本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙 Flink 集成 Iceberg 的生产实践。 本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙 Flink 集成 Iiceberg 的生产实践。内容包括: 背景及痛点Flink Ice…

阿里巴巴开源容器镜像加速技术

简介: 近日阿里巴巴开源了其云原生容器镜像加速技术,其推出的overlaybd镜像格式,相比于传统的分层tar包文件格式,实现了基于网络的按需读取,从而使得容器可以快速启动。 近日阿里巴巴开源了其云原生容器镜像加速技术&…

Unity重写Inspector简化分组配置文件

Unity重写Inspector简化分组配置文件 重写Inspector创建分组管理配置文件创建修改参数参数对应类工程在我的资源中名为CreateConfig,免费下载 重写Inspector创建分组管理配置文件 创建 修改参数 参数对应类 using UnityEngine;public class GameConfig : Scriptab…

985大学的高材生只会写代码片段,丢人吗?

很多同学在学习编程的时候都会遇到各种各样的难题,比如:没有合适的资料、学习过于碎片化、资料的质量层次不齐、看了很多视频自己动手时却还是不会、接触不到完整项目、无法检测自己的编程水平是不是企业所认可的……最近,小郭和小解同学也遇…

快手基于RocketMQ的在线消息系统建设实践

简介: 快手需要建设一个主要面向在线业务的消息系统作为 Kafka 的补充,低延迟、高并发、高可用、高可靠的分布式消息中间件 RocketMQ 正是我们所需的。 作者:黄理 黄理,10多年软件开发和架构经验,热衷于代码和性能优…

基于 RocketMQ Prometheus Exporter 打造定制化 DevOps 平台

简介: 本文将对 RocketMQ-Exporter 的设计实现做一个简单的介绍,读者可通过本文了解到 RocketMQ-Exporter 的实现过程,以及通过 RocketMQ-Exporter 来搭建自己的 RocketMQ 监控系统。RocketMQ 在线可交互教程现已登录知行动手实验室&#xff…

c语言结构体函数平面向量加法公式,插值 拟合 符号变量与符号表达式 微积分 解方程 向量运算...

7.1.1 分段线性插值所谓分段线性插值就是通过插值点用折线段连接起来逼近原曲线,这也是计算机绘制图形的基本原理。实现分段线性插值不需编制函数程序,MATLAB自身提供了内部函数interp1其主要用法如下:interp1(x,y,xi) 一维插值◆ yiinterp1(…

Redis 很屌,不懂使用规范就糟蹋了

作者 | 码哥 来源 | 码哥字节❝这可能是最中肯的 Redis 使用规范了一网友昨天和我说,公司凌晨 12 点之后,网站用户量暴增,出现了一个技术故障,用户无法下单,当时老大火冒三丈!经过查找发现 Redis 报 C…

python统计字符在文件中出现的次数_一文搞定统计字符串中某字符出现的频次

下面是统计字符串中某字符出现的次数的方法 方法1: 这个方法相当简单,零基础自学编程,代码写成这样能满足需求,但它逐个逐个计数,比较笨拙。rlt {} for i in content: if i in rlt.keys(): rlt[i] 1 else: rlt[i] 1…

深度 | 数据仓库分层存储技术揭秘

简介: 作者: 沄浩、士远 一 、背景 据IDC发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB,平均每天约产生491EB数据。随着数据量的不断增长,数据存储成本成为企业IT预算的重…

android tab 切换动画,Android之ViewPager+TabLayout组合实现导航条切换效果(微信和QQ底部多标签切换)...

前言之前在另外一篇中用Fragment和button实现了点击切换Fragment的效果,比较简陋。这次改用ViewPagerTabLayout 实现联动的效果。实现效果ViewPager 多个页面滑动TabLayout 和 ViewPager绑定,实现Fragment和标签绑定TabLayout的自定义标签以及选中颜色改…

5G 和云原生时代的技术下半场,视频化是最大最新的确定性

简介: 随着 5G/ 芯片 / 区块链等等新技术的不断成熟、云计算的普及和云原生时代带来的诸多便捷,开发者和架构师们眼前的挑战也不再只是 0-1 的建设问题,技术如何更多地带来业务价值成为了一个值得讨论的话题。阿里巴巴集团研究员,…