云卷云舒:大型电信运营商应用软件健康度评估方法

        大型电信运营商内均会自建云资源池,并基于云资源池构建自己上层应用软件资源,但是各类上层应用软件的故障频发也给运维工作带来了较大的压力,电信运营商急需一种较完善的方法实现对于应用软件的健康度评测,以进一步指导运维完成应急预案的制定。

        这也是智能运维的最基础的一部分。

一、现有技术

目前,针对于应用软件的健康度的评测的方法一般包括如下几种:

(1)最简单的方案下,通过各类应用软件发生的故障数据来进行评估的,具体通过应用软件故障的数量进行评估的,应用软件故障数量越多评分越低,应用软件健康度则越高;

(2)在(1)的基础之上,将应用软件故障进行了细分,提出了应用软件故障级别的概念,级别越高扣分越多,通过加权实现总体得分,得分越低,应用软件健康度则越高。

(3)在应用软件评分周期上,采取利用过去一定时间(如一个月)的应用软件故障数据进行评分,每间隔相对更短的一定时间(如一天)进行评分滚动更新。

二、当前技术问题分析

        现有技术(1)中,简单通过应用软件故障的数量进行应用软件健康度的评估,输入影响参数单一,必然存在着准确性低的问题;

         相比技术(1),不同的是技术(2)对于应用软件故障做了级别的细分,介入通过加权的方法实现得分的评估,其实仍然停留在应用软件故障的个数这一单一因素上,且故障判别均通过固定阈值方式开展,对于实际指标值大于极端阈值(如内存使用率大于90%)时判别为故障,判别准确性得不到保证;另外,该方案没有考虑到应用软件故障集中度的因素,因为故障分布分散,侧面代表应用软件异常的快速恢复,这也是应用软件性能的一个重要参考因素;另外应用软件故障在生产过程中是很少发生的,一般每月的应用软件故障数也不会超过5个,即样本数量过少,导致评分根本无法保证,很大概率下每月的应用软件评分都是100分满分,应用软件的故障预期效果得不到保证。

        技术(3)内的评分周期一般均较长,其实这使得应用软件的短期故障被淹没,如两个应用软件一个月内均发生30起故障,但是应用软件的故障集中和较分散属性,并没有体现出来,我们认为应用软件的短期故障,即集中式的应用软件故障相对于分散的故障来说是更严重的,理应评分越低。

三、本文提出的方案

         本文方案架构如下图:

 

根据上图所示,系统架构和工作流程图描述如下:

1、系统架构

分为三个模块:

  • 故障数据收集模块;
  • 小时级健康度评分模块;
  • 迭代评分模块。

2、系统工作流程

  • 故障数据收集模块:每小时针对小时内每一分钟是否为异常点进行判别,通过异常检测算法ARIMA算法进行;得出小时内60个分钟的异常数据数组;
  • 小时级健康度评分模块:针对一个小时内的所有异常,从异常个数特性识别模块和异常集中性识别特性两个方面评分,得出该小时的健康度,健康度级别可分为健康/轻微/一般/中等/严重五个级别:

总分数=异常个数特性得分(50分)+异常集中特性得分(50分)

评分标准如下:

  1. 如果发生异常20处及以上,或10处及以上的连续异常分钟,健康度级别判定为严重;扣30分
  2. 如果发生异常10处及以上不足20处,或5处以上10处以下的连续异常分钟,健康度级别判定为中等;扣20分
  3. 如果发生异常5处及以上不足10处,或大于0且小于5处以下的连续异常分钟,健康度级别判定为一般;扣10分
  4. 如果发生异常0处以上且5处以下,且无连续异常分钟,健康度级别判定为轻微;扣5分
  5. 如果无异常,健康度级别判定为健康。不扣分

示例:如果一个小时内的60个分钟的异常分布如下:

分种

异常与否

分种

异常与否

分种

异常与否

分种

异常与否

0

异常

15

30

45

1

16

31

46

2

异常

17

异常

32

异常

47

3

18

33

48

4

异常

19

异常

34

49

5

异常

20

35

50

6

异常

21

36

51

7

异常

22

37

52

8

异常

23

异常

38

53

9

异常

24

异常

39

异常

54

10

异常

25

40

异常

55

11

异常

26

异常

41

56

12

异常

27

42

57

13

28

43

58

14

29

44

59

上图内异常个数为19,健康度级别判定为中等,扣分20分,异常个数特性得分30分;

上图内连续异常个数为10,健康度级别判定为严重,扣分30分, 异常集中特性得分20分;

小时级评分=30+20=50分。

        通过上述例子可以看出,小时内异常总数为19个,评级为中等;但是异常比较集中,连续异常达到了10处,代表着应用软件的异常恢复能力较差,所以评级为严重;体现出了该算法充分考虑到了更多的因素,评分会相比传统更加准确和全面。

3、迭代评分模块

        针对过去一个月(固定为30天)内每一个小时级(共30x24=720个小时)的评分做出加权计算,具体计算逻辑如下:

        30天的数据距离当前时间越近越具备较大的参考价值,应该给予较大的权重,本文内每间隔6天变更一次权重,权重分配参考二进制递进的原则,即1/2,1/4,1/8,1/16,1/32.由于每月共30天,具体权重做了微调,保证权重总和为1,具体的权重分配如下:

  • 第1个6天权重为w1=15/30;
  • 第2个6天权重为w2=8/30;
  • 第3个6天权重为w3=4/30;
  • 第4个6天权重为w4=2/30;
  • 第5个6天权重为w5=1/30;

 最后得出应用软件健康度评估的总分数:

        其中score of 144hours代表着第n个6天共144个小时的评分数组,具体规则:

        分别计算出每个6天(共144=24*6小时)的小时级别平均值,然后将一个月30天内,共5个平均值做加权,代表该月内小时级别的异常评分。

三、总结      

        该架构体系,对于电信运营商应用软件的健康度评估,综合了传统健康度评估的思想,通过引入人工智能技术实现故障前异常数据的识别,扩充了评测的样本,避免了传统评分体系中故障样本不足的弊端,同时经过滚动迭代计算评分,并根据距离当前时间远近设置不同的权重来进行综合评分,整体上考虑到了更多的因素,包括空间和时间的双重因素,准确度更高,更具有说服力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/597240.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

unity C# 中一看就会的try-catch-finally、throw

文章目录 1、C# 异常处理原理:2、C# 异常处理实用案例(简化版示例):3、throw关键字 C# 异常处理是一种用于捕获和处理程序运行时错误的机制,它允许程序在遇到不可预见或非正常条件时进行优雅地恢复或失败。C# 中的异常…

Rust 圣经 阅读 字符、布尔、单元类型

字符类型(char) Rust 的字符不仅仅是 ASCII ,还包含所有的 Unicode 值,包括单个的中文、日文、表情符号等等。 Unicode 值的范围从 U0000 ~ UD7FF 和 UE000 ~ U10FFFF。 因为每个 Unicode 都是 4 个字节编码,所以字符…

知虾皮Shopee:东南亚最受欢迎的电子商务平台

在如今数字化时代,电子商务平台成为人们购物的首选方式。Shopee作为东南亚地区最受欢迎的电子商务平台,通过其多样化的商品、便捷的购物体验和创新的商业模式,迅速在该地区占据了重要地位。本文将详细介绍Shopee的特点和优势,以及…

设计模式 七大原则

1.单一职责原则 单一职责原则(SRP:Single responsibility principle)又称单一功能原则 核心:解耦和增强内聚性(高内聚,低耦合)。 描述: 类被修改的几率很大,因此应该专注…

CNN——VGG

1.VGG简介 论文下载地址:https://arxiv.org/pdf/1409.1556.pdf VGGNet 是由牛津大学视觉几何小组(Visual Geometry Group, VGG)提出的一种深层卷积网络结构,他们以 7.32% 的错误率赢得了 2014 年 ILSVRC 分类任务的亚军&#xff…

2024年MySQL学习指南(二),探索MySQL数据库,掌握未来数据管理趋势

文章目录 前言4. DDL- 操作数据库4.1 查询4.2 创建数据库4.3 删除数据库4.4 使用数据库 5. DDL- 操作数据表5.1 数据类型5.2 查询表5.3 创建表5.4 删除表5.5 修改表 6. 实战案例详解 前言 接上一篇文章【2024年MySQL学习指南(一)】 4. DDL- 操作数据库 …

2023-2024 年广东省职业院校技能大赛高职组 “软件测试”赛项竞赛规程

2023-2024 年广东省职业院校技能大赛(高职组) “软件测试”赛项竞赛规程 一、赛项信息 赛项名称:软件测试 赛项编号:GZ034 赛项组别:高职组 二、竞赛目标 软件是新一代信息技术的灵魂,是数字经济发展的基础…

LeetCode 每日一题 Day 32 ||递归单调栈

2487. 从链表中移除节点 给你一个链表的头节点 head 。 移除每个右侧有一个更大数值的节点。 返回修改后链表的头节点 head 。 示例 1: 输入:head [5,2,13,3,8] 输出:[13,8] 解释:需要移除的节点是 5 ,2 和 3 。…

大数据 - Doris系列《二》- Doris安装(亲测成功版)

目录 🐶2.1 安装前准备 🥙1.设置系统最大文件打开句柄数 >启动一个程序的时候,打开文件的数量就是句柄数 🥙3.时钟同步 🥙4.关闭交换分区(swap) 🐶2.2 安装FE &#x1f436…

论文悦读(7)——NVM文件系统之Trio(SOSP‘23)文件系统

TRIO(SOSP23) 1. 背景(Background)1.1 NVM Technologis1.2 File System Customization1.3 Userspace NVM File Systems 2. 观察与动机(Observation & Motivation)3. 设计与实现(Design &…

JMeter 插件大全:详细介绍 Jmeter 常用插件

JMeter作为一个开源的接口性能测试工具,其本身的小巧和灵活性给了测试人员很大的帮助,但其本身作为一个开源工具,相比于一些商业工具(比如 LoadRunner),在功能的全面性上就稍显不足。这篇博客,就…

傅里叶级数、傅里叶变换、小波变换、离散余弦变换的理解

目录 1. 傅里叶级数2.傅里叶变换 1. 傅里叶级数 功能:能把任意周期性函数展开成一系列正弦、余弦函数的和。 公式: f ( x ) a 0 2 ∑ n 1 ∞ ( a n cos ⁡ ( 2 π n x T ) b n sin ⁡ ( 2 π n x T ) ) 傅里叶系数 a n 2 T ∫ x 0 x 0 T f ( x )…

网络安全|2024年需要重点关注的10种DNS攻击类型

目前,针对域名系统(DNS)的攻击已经成为企业组织数字化发展中的一个严重问题,每年都有数千个网站成为此类攻击的受害者。据最近的研究数据显示,2023年企业组织与DNS攻击相关的损失同比增加了49%,这些损失不仅…

即时设计:一键查看设计稿与页面差异,让设计师的工作更便捷高效

设计稿走查 在设计工作中,对设计稿和实际页面进行对比是必不可少的环节。然而,传统的对比方式往往耗时耗力,无法精确测量差异。为了解决这个问题,我们推出了一款强大的工具,它可以通过图片对比,轻松查看设…

使用results.csv文件数据绘制mAP对比图

yolov5每次train完成(如果没有中途退出)都会在run目录下生成expX目录(X代表生成结果次数 第一次训练完成生成exp0 第二次生成exp1…以此类推)。expX目录下会保存训练生成的weights以及result.txt文件,其中weights是训练…

Redis第3讲——跳跃表详解

一、什么是跳跃表 跳跃表(skiplist)是一种随机化的数据结构,由William Pugh在论文《Skip lists: a probabilistic alternative to balanced trees》中提出。它通过在每个节点中维持多个指向其它节点的指针,从而达到快速访问节点的…

Zabbix 监控介绍

1、功能概述 通常所说的监控,会模糊地包含以上下个细分领域的内容: 应用性能监控(Application Performance Monitoring)业务交易监控(Business Transaction Monitoring)网络性能监控(Network …

华为云CES监控与飞书通知

华为云负载均衡连接数监控与飞书通知 在云服务的日常运维中,持续监控资源状态是保障系统稳定性的关键步骤之一。本文通过一个实际案例展示了如何使用华为云的Go SDK获取负载均衡器的连接数,并通过飞书Webhook发送通知到团队群组,以便运维人员…

福利来袭,.NET Core开发5大案例,30w字PDF文档大放送!!!

千里之行,始于足下,若想提高软件编程能力,最最重要的是实践,所谓纸上得来终觉浅,绝知此事要躬行。根据相关【艾宾浩斯遗忘曲线】研究表明,如果不动手实践,记住的东西会很快忘记。 为了便于大家查…

C#设计模式之观察者模式

前言 观察者(Observer)模式也称发布-订阅(Publish-Subscribe)模式,定义了对象间一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。 观察者模式的图解如下所示…