从阿里云崩溃看IT系统非功能能力验证

昨天下午6点左右学员群里有人说阿里云又出问题了,并且还挺长时间没有恢复了。

我也登录了一下,结果登录直接不停地302。如下所示:
在这里插入图片描述
做为阿里云重要的基础设施,这一故障影响了。如官方通告的处理时间线:

17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。
17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
21:11 受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。

看来运维大招是重启再一次得到验证。

影响范围:

华北2 (北京)、华北6 (乌兰察布)、 华北1 (青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酉(迪拜)、西南1 (成都)、华南3 (广州)、新加坡、澳大利亚 (悉尼)、马来西亚(吉隆坡)、 华北5 (呼和浩特)、 印度 尼西亚(雅加达)、美国 (弗吉尼亚)、菲律宾 (马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云

阿里云的事故出的不是一次两次,只是这一次的生产事故范围比较大,并且时间达到3.5个小时。这一次事故,全年的可用性就只能达到 99.96 %了。

做为国内市场占有率第一的云服务,阿里云这次事故的重要性在哪呢?

  1. 对于公有云一直提到的稳定计算能力的信心会有影响。

  2. 对于一些强依赖公有云的企业,需要考虑应急方案。

  3. 对于重要的IT系统的非功能能力验证过程需要重新审视。

关于故障定级,事故分析,已经有大量的从业人员连蒙带猜了,也不差我这一个。所以做为非内部人员,我也不去瞎蒙了。

写这篇文章也不是为了笑话阿里云这样的企业连可用性都保障不了。

只是从这一事故来来说一下,一个企业的IT系统的非功能生命线到底应该如何保障。

对于一个IT系统来说,质量保证分为两大类:功能、非功能。

功能的保证我觉得大部分企业只要有业务测试(不管是手工还是自动化)的环节,业务功能还是基本可以保证的。

但是非功能的范围可就有点麻烦了。因为非功能能力的范围是非常庞大的。简单的从特性上划分,我们可以分这些(特性的划分在不同的人眼中是不同的,所以你可以根据自己的理解去划分):

在这里插入图片描述

只划分这些还远远不够,还要有相对应的落地规范、指南性的具体描述。

有很多企业在非功能领域中,对于性能做的还稍微多一点。再加上近些年提到的”混沌工程“,也做一些故障演练之类的事情。阿里自己就有相应的混沌工具和服务。

但是这些都还只是冰山一角,没有达到方法论的级别。

做为一个IT从业近20年的我来说,见到的生产事故不是一次两次了。从技术的角度上来说,没有100%不出生产事故的系统,只能尽力减少事故次数和时间长度。

我们可以看到,企业在计算IT系统可用性几个9的时候,都是事后动作,但是从来没有一个企业可以在上生产之前通过非功能测试之后给出几个9的结论。

甚至于,上生产之前所做的非功能测试都不敢说覆盖了多少非功能特性。这是一个非常大、也非常难的话题。

在2021-2022两年内,我做过一个非功能体系咨询的项目。在这两年中,针对现在国内信创转型、数字化转型、架构转型的IT系统,我一直在考虑通过什么样的逻辑可以让一个IT系统的非功能能力得到较为全面的验证测试。

通过不断的摸索,在这个项目中,我写了一套完整的非功能能力验证体系,覆盖了最初的业务需求到上线运维,交付文档就达到几十万字,逻辑也在不断地实践项目中得到验证,直到现在也仍然在不断迭代完善之中。

在这里插入图片描述
当然这里不是为了推广我写的这套咨询体系。

而是说一个IT系统的非功能能力要想得到全面保障,是非常宏大的话题。一入非功能深似海。

在非功能能力上,如果想要全面验证,首先要确定一下基本的原则。

在这里插入图片描述
非功能能力要想得到全面的验证,任何大而空的没有落地能力的方法论都是没有价值的。而只有工具没有方法论,也是不可能做到面面俱到的。即便是有了方法论,也是要不断迭代更新的。

企业需要做一些非功能体系规范的事情。

在这里插入图片描述
有了原则和规划做为前提,还要对非功能的特性进行细分。

在这里插入图片描述
而一个IT系统会分出多少非功能的子特性出来,是要在具体的项目中分析的。这些特性的细分,是要覆盖业务功能、架构设计、系统设计、开发、运维各环节的非功能需求的。

非功能验证测试的环节就是要针对以上的细分特性进行全面的验证。

这样才能完成一套完整的非功能体系的落地过程。

有一句类似口号的话放到结尾:

非功能体系能力是企业技术能力的全面体现,是技术深度认识的完整概括。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/5684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JavaEE初阶系列】——理解tomcat 带你实现最简单的Servlet的hello world程序(七大步骤)

目录 🚩认识Tomcat 🚩运用Tomcat 🚩Servlet 🎓完成简单的Servlet的hello world程序 🎈创建项目Maven 🎈引入依赖 🎈创建目录 🎈编写代码 🎈打包程序 &#x1…

Go 语言基础(一)【基本用法】

前言 最近心情格外不舒畅,不仅仅是对前途的迷茫,这种迷茫倒是我自己的问题还好,关键它是我们这种普通吗喽抗衡不了的。 那就换个脑子,学点新东西吧,比如 Go? 1、Go 语言入门 介绍就没必要多说了&#xff0…

求矩阵对角线元素之和(C语言)

一、N-S流程图&#xff1b; 二、运行结果&#xff1b; 三、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;int i 0;int j 0;int sum 0;int a[3][3] { 0 };//获取数组a的值&#xff1b;printf(&qu…

『大模型笔记』Code Example: Function Calling with ChatGPT

Code Example: Function Calling with ChatGPT 文章目录 一. Code Example: Function Calling with ChatGPT二. 参考文献一. Code Example: Function Calling with ChatGPT from openai import OpenAI from dotenv import load_dotenv import json# --------------------------…

标准汽车试验铁地板的技术要求

在现代科技化发展的工作中&#xff0c;试验平台被广泛使用。铸铁试验平台&#xff08;试验铁地板&#xff09;又叫试验工作平台&#xff0c;听名字大家也不难想象出来这是一款带有箱式体的台面&#xff0c;这是一种有长方形或者圆形又或者正方形的试验工作台。 铸铁试验平台&a…

调用WinPE给现有的Windows做一个备份

前言 前段时间有小伙伴问我&#xff1a;如何让给电脑备份系统。 小白直接告诉他&#xff1a;为啥要备份系统呢&#xff1f;直接给电脑创建一个还原点就好了。 Windows还原点创建教程&#xff08;点我跳转&#xff09; 没想到小伙伴的格局比小白大得多&#xff0c;他说&…

2024年第二十一届 五一杯 (C题)大学生数学建模挑战赛 | 多目标优化问题,深度学习分析 | 数学建模完整代码解析

DeepVisionary 每日深度学习前沿科技推送&顶会论文&数学建模与科技信息前沿资讯分享&#xff0c;与你一起了解前沿科技知识&#xff01; 本次DeepVisionary带来的是五一杯的详细解读&#xff1a; 完整内容可以在文章末尾全文免费领取&阅读&#xff01; 首先&…

编码方式导致的csv文件错误

写入csv文件时&#xff0c;假如出现了csv文件是乱码的情况&#xff0c;那么说明编码方式有问题&#xff0c;需要修改一下编码方式为utf-8-sig。 把编码方式修改一下为encodingutf-8-sig &#xff0c;再次运行就不会是乱码了&#xff0c;可见再读写csv文件时&#xff0c;假如使用…

【报错处理】ib_write_bw执行遇到Found Incompatibility issue with GID types.原因与解决办法

文章目录 拓扑现象根因解决办法解决后效果 拓扑 #mermaid-svg-zheSkw17IeCpjnVA {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-zheSkw17IeCpjnVA .error-icon{fill:#552222;}#mermaid-svg-zheSkw17IeCpjnVA .error…

Python语言零基础入门——模块

目录 一、模块的导入与使用 1.模块的导入 2.模块的使用 二、包的使用 1.包 2.包的使用 三、常见的标准库 1.random的运用举例 2.random小游戏 &#xff08;1&#xff09;石头剪刀布 &#xff08;2&#xff09;猜大小 3.re 4.time库的使用 5.turtle库的使用 6.so…

手把手实现一个简约酷美美的版权声明模块

1. 导语 版权声明在很多网站都有用到&#xff0c;出场率还是很高的。所以今天就实现一个属于自己分风格的版权声明模块&#xff0c;技术上采用原生的前端三剑客: HTMLCSSJavaScript(可能会用到) 比如CSDN的版权声明是这样的 2. 需求分析 先看看成品吧&#xff0c;这篇文字结…

Access to image at ... from origin ... has been blocked

Access to image at ‘http://127.0.0.1:3000/api/getImg?url/uploads/file/20240421/file-1713715007811-logo.png’ from origin ‘http://ggbol.gnway.cc’ has been blocked by CORS policy: The request client is not a secure context and the resource is in more-pri…

【C++】---模板进阶

【C】---模板进阶 一、模版参数1、类型参数2、非类型参数 二、模板的特化1、函数模板的特化2、类模板特化&#xff08;1&#xff09;全特化&#xff08;2&#xff09;偏特化 三、模板分离编译1、模板支持分离编译吗&#xff1f;2、为什么模板不支持分离编译&#xff1f;3、如何…

google search API 获取

登录谷歌云启动服务 首先登录谷歌云Google Cloud: https://console.cloud.google.com/&#xff0c;登录后创建一个项目。 选择创建的项目&#xff0c;进入API库。搜索Google Search。 选择custom Search API并启用。 此外&#xff0c;有个非常具有类似的API-- Google Search …

3D建模在游戏行业的演变和影响

多年来&#xff0c;游戏行业经历了显着的转变&#xff0c;这主要是由技术进步推动的。 深刻影响现代游戏的关键创新之一是 3D 建模领域。 从像素化精灵时代到我们今天探索的错综复杂的游戏世界&#xff0c;3D 建模已成为游戏开发不可或缺的基石。 本文讨论 3D 建模在游戏行业中…

PyVista 3D数据可视化 Python 库 一行代码实现裁剪 含源码

简介&#xff1a; Pyvista是一个用于科学可视化和分析的Python库,使3D数据可视化变得更加简单和易用&#xff1b; 只增加一行代码就可以实现裁剪&#xff1b; 1.效果&#xff1a; 2.代码如下&#xff1a; 加载模型数据&#xff1a; 代码实现&#xff1a; import pyvista a…

查找算法之二分查找

一、算法介绍 二分查找&#xff0c;也称为折半查找&#xff0c;是一种在有序数组中查找特定元素的高效算法。对于包含 n 个元素的有序数组&#xff0c;二分查找的步骤如下&#xff1a; 确定搜索范围&#xff1a;首先&#xff0c;将要查找的元素与数组中间的元素进行比较。如果…

引领农业新质生产力,鸿道(Intewell®)操作系统助力农业机器人创新发展

4月27日至29日&#xff0c;2024耒耜国际会议在江苏大学召开。科东软件作为特邀嘉宾出席此次盛会&#xff0c;并为江苏大学-科东软件“农业机器人操作系统”联合实验室揭牌。 校企联合实验室揭牌 在开幕式上&#xff0c;江苏大学、科东软件、上交碳中和动力研究院、遨博智能研究…

查看笔记本电池容量/健康状态

1. 打开命令行提示符 快捷键“win R”后输入“cmd” 2. 在命令提示符中输入命令 “powercfg /batteryreport" 并回车 3. 查看文件 最后就可以看到笔记本的电池使用报告了

高效率的做事方法?

高效率的做事方法可以帮助我们更好地管理时间和资源&#xff0c;以下是一些建议&#xff1a; 1.明确目标和计划&#xff1a; 在开始任何任务之前&#xff0c;先明确你的目标是什么。 制定一个详细的计划&#xff0c;包括步骤、时间表和预期结果。 将任务分解成小块&#xff0…