优维全面可观测产品能力分解②:变更可观测

上周,我们推出了优维全面可观测能力介绍的系列性文章的第一篇:架构可观测。优维架构可观测是从系统架构的视角来呈现链路与服务的状态数据,点击可回看:架构可观测文章。本周,我们将推出本系列性文章的第二篇:变更可观测

故障60%到80% 是由于变更引起的。

对于生产环境的稳定性,是各个行业相关公司都关注的。尤其是对于金融行业及大型互联网公司来说,稳定性就显得更为重要,另外,从诱发稳定性问题的原因分析来说,变更问题所占据的比例,常年超过一半以上,而故障60%到80% 是由于变更引起的。历史上因此产生的重大故障不胜枚举。

当公司业务规模扩大,系统采用分布式结构后,会增加系统的复杂性。同时,随着业务复杂性的提升,不同部门间的协作关系也变得更加错综复杂。这样一来,在大型企业中,进行任何改动或变更的挑战就更大了。

所以,对于稳定性来说,业界的一个共识是:预测及防控变更风险,稳定性问题就解决了一半以上。

1

变更遇到的问题

虽然说业界有了上述的一个共识,但诱发线上问题的根因是多种多样的。就如优维交付团队在辅助客户进行生产上变更时,就遇到以下问题:

  • 变更过程难以观测:生产环境中超过60%的故障来源于主动变更,业务运维难以从变更的角度观察是否给应用系统引入异常,变更活动只能“听天由命”。
  • 变更存在信息孤岛:支撑系统运行的应用程序、计算资源、存储、甚至网络等等环节由不同部门负责管理,各个环节的运维变更犹如信息孤岛,业务运维难以掌握和管理这些变更给应用系统带来的影响。

基于上述存在的问题,优维「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助其更高效地处理变更引起的故障,确保系统的稳定性与连续性。

2

优维变更可观测能力

优维「变更可观测」以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。同时,消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。

整体技术思路

基于用户痛点的洞察,优维变更可观测的思路是打通两个维度。

第一个维度要从东西向视角打通应用系统过往的变更历史,知道应用系统做过哪些变更;第二个维度是要从南北向视角打通支撑应用系统的各级资源,弄清楚分别有哪些资源,掌握资源的运行状况。

通过掌握以上两个维度的信息,横向上从系统变更工单的视角出发,通过变更工单可查看系统本身服务是否有告警,服务当前的健康指标状况,以及之前是否有故障工单的存在。同时,纵向上可查看系统各级资源,如各种中间件、数据库、存储等资源是否有告警,是否有做过变更,及资源当前是否存在故障。

核心功能

基于全面技术框架的双重视角,变更可观测性引入了一个横向的时间轴维度,使用户能够追溯过去72小时内的系统变更全景。用户通过这一时间序列分析功能,可深度洞察近三日内系统所实施的所有变更活动及其具体事件详情,并在变更执行后,能够精准关联并揭示由此触发的各类告警与故障现象,从而实现对系统健康状态的持续监控与有效管理。

在纵向维度上,用户能够对比查看服务变更前后的告警状态演变。同时,通过引入系统资源图谱,使用户能够宏观把握各类资源的告警态势,并能进一步详细了解特定资源类型的实例分布及其性能指标情况。

当某类资源出现异常告警时,用户可以沿此路径进行递进式下探分析,精确获取关联资源的详细告警记录、变更历史及故障详情信息,以实现全方位、多层次的运维洞察与问题定位。

3

变更可观测的应用场景

变更可观测主要覆盖以下应用场景:

  1. 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等。
  2. 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。
  3. 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。

4

变更可观测的四大场景价值

  1. 观测变更的服务是否存在异常:变更完成后通过应用系统的角度查看变更的服务时存在的异常情况,主动观测、主动解决变更后服务可能存在的健康问题,防止问题恶化演变成为故障。
  2. 订阅变更报告:当运维成熟度足够高以后,业务运维可以订阅指定系统的变更报告,以定时推送或故障推送的方式在远端获取变更详情。提高运维灵活性,提高运维成熟度。
  3. 观测应用系统依赖的资源是否存在异常:将观测视角沿南北向下钻到基础设施资源层面,防止资源异常影响上层应用程序,甚至业务的故障。
  4. 查看应用系统依赖的变更记录:消除部门间信息孤岛,为业务运维带来更加丰富、全面的系统变更信息。

变更可观测是提升生产环境稳定性的一个重要洞察能力,相关应用场景的功能实力也在逐步完善建设起来,我们希望能给用户带来更精益、更可靠的可观测能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Vue2 + ElementUI】更改el-select的自带的下拉图标为倒三角,并设置相关文字颜色和大小

效果图 实现 <template><div class"search_resources"><div class"search-content"><el-select class"search-select" v-model"query.channel" placeholder"请选择" change"handleResource&q…

【C++】C++入门基础讲解(二)

&#x1f497;个人主页&#x1f497; ⭐个人专栏——C学习⭐ &#x1f4ab;点击关注&#x1f929;一起学习C语言&#x1f4af;&#x1f4ab; 导读 接着上一篇的内容继续学习&#xff0c;今天我们需要重点学习引用。 1. 引用 在C中&#xff0c;引用是一种特殊的变量&#xff…

【遥感专题系列】影像信息提取之—— 土地利用数据监督与非监督分类

基于光谱的影像的分类可分为监督与非监督分类&#xff0c;这类分类方法适合于中低分辨率的数据&#xff0c;根据其原理有基于传统统计分析的、基于神经网络的、基于模式识别的等。 本专题以ENVI5.3及以上版本的监督与非监督分类的实际操作为例&#xff0c;介绍这两种分类方法的…

什么是NAT?NAT类型有哪些?

晚上好&#xff0c;我的网工朋友。NAT是一种地址转换技术&#xff0c;它可以将IP数据报文头中的IP地址转换为另一个IP地址&#xff0c;并通过转换端口号达到地址重用的目的。 在大多数网络环境中&#xff0c;我们都需要通过 NAT 来访问 Internet。 NAT作为一种缓解IPv4公网地址…

如何搭建Nextcloud云存储网盘并实现无公网ip访问本地文件【内网穿透】

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

双非本科准备秋招(9.2)——力扣哈希

1、383. 赎金信 跟昨天的题大同小异&#xff0c;因为只有26个字母&#xff0c;所以可以建个有26个坑位的数组。 做完昨天的题目&#xff0c;这个题没啥新意。 class Solution {public boolean canConstruct(String ransomNote, String magazine) {int[] hashTable new int[…

从0开始搭建若依微服务项目 RuoYi-Cloud(保姆式教程 一)

掌握陌生项目解读技巧 掌握若依(RuoYi-Cloud)框架 掌握SpringCloud Alibaba体系项目开发套路&#xff0c;结合我之前所有企业项目来学习就知道有多么简单。 一、框架介绍 1. 简介 一直想做一款后台管理系统&#xff0c;看了很多优秀的开源项目但是发现没有合适的。于是利用空…

Python中如何将字符串变成数字?

字符串和数字是Python中常见的数据类型&#xff0c;而且在撰写Python程序的时候&#xff0c;也经常会遇到需要将字符串转换为数字的情况&#xff0c;那么Python中如何将字符串变成数字?有多种方法可以使用&#xff0c;接下来一起来看看具体内容介绍。 1、使用int()函数 int(…

使用 Node.js 和 Cheerio 爬取网站图片

写一个关于图片爬取的小案例 爬取效果 使用插件如下&#xff1a; {"dependencies": {"axios": "^1.6.0","cheerio": "^1.0.0-rc.12","request": "^2.88.2"} }新建一个config.js配置文件 // 爬取图片…

Git 教程 | 将本地修改后的文件推送到 Github 指定远程分支上

Git 是一种分布式版本控制系统&#xff0c;用于敏捷高效地处理任何大小的项目。它是由 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的开源版本控制软件。Git 的本地克隆就是一个完整的版本控制存储库&#xff0c;无论脱机还是远程都能轻松工作。开发人员会在本地提交其工…

阿里十年 “帕鲁” 手把手带你学习 Java 常见并发容器

阿里十年 “帕鲁” 手把手带你学习 Java 常见并发容器 文章目录 阿里十年 “帕鲁” 手把手带你学习 Java 常见并发容器ConcurrentHashMapCopyOnWriteArrayListConcurrentLinkedQueueBlockingQueueBlockingQueue 简介ArrayBlockingQueueLinkedBlockingQueuePriorityBlockingQueu…

计算机设计大赛 推荐系统设计与实现 协同过滤推荐算法

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 推荐系统设计与实现 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1…

PyTorch2ONNX-分类模型:速度比较(固定维度、动态维度)、精度比较

图像分类模型部署: PyTorch -> ONNX 1. 模型部署介绍 1.1 人工智能开发部署全流程 #mermaid-svg-bAJun9u4XeSykIbg {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-bAJun9u4XeSykIbg .error-icon{fill:#552222;}…

2023量子科技十大用例 | 光子盒年度系列

随着量子科技的不断突破&#xff0c;量子计算、量子通信、量子测量等应用场景逐渐向纵深拓展&#xff0c;量子产业呈现出较好的发展势头。 量子计算的发展比以往任何时候都更加迅速&#xff0c;这提醒我们&#xff0c;这项看似‘高冷’的前沿科技&#xff0c;已悄然应用于不少领…

使用IconFont实现矢量图标(Avalonia)

使用IconFont实现矢量图标(Avalonia) IconFont可以自己在阿里图标库收藏好&#xff0c;然后打包下载&#xff0c;这个就不在这里进行描述了&#xff0c;如果不知道怎么生成图标项目以及打包下载&#xff0c;可以先自己百度。 App.axaml中进行载入 <Application.Resources…

14.java集合

文章目录 概念Collection 接口概念示例 Iterator 迭代器基本操作&#xff1a;并发修改异常增强循环遍历数组&#xff1a;遍历集合&#xff1a;遍历字符串&#xff1a;限制 list接口ListIteratorArrayList创建 ArrayList&#xff1a;添加元素&#xff1a;获取元素&#xff1a;修…

八、MySQL事务和SQL优化

1 什么是事务 Transaction&#xff0c;使我们数据库内最小且不可再分的单元。通常一个事务对应一个完整的业务(例如银行账户转账业务&#xff0c;该业务就是一个最小的工作单元)。一个完整的业务需要批量的DML(INSERT 、UPDATE、DELETE)语句共同联合完成。事务只和DML语句有关…

Js设计模式

1、简介 设计模式总的来说是一个抽象的概念&#xff0c;是软件开发人员在开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。 2、工厂模式 工厂模式是用来创建对象的一种最常用的设计模式。我们不暴露创建对…

计算机设计大赛 基于图像识别的跌倒检测算法

前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于图像识别的跌倒检测算法 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f9ff; 更多资料, 项目分享&#xff1a; https://gitee.com/dancheng-senior/…

金融行业现场故障处理实录

KL银行现场服务记录—HA故障 服务时间 2019年9月10日星期二 14&#xff1a;40 到2019年9月11日星期三 0&#xff1a;30 服务内容 排查redhat RHEL 6.4 一个节点cman启动故障。 &#xff08;1&#xff09;、查看系统日志&#xff1b; &#xff08;2&#xff09;、查看ha日志…