维大杀器来了,未来云上服务器或将实现无人值守

云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。

9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,分享了阿里云弹性计算团队如何利用人工智能技术赋能运维自动化,实现云上服务器无人值守,帮助用户降低云服务器实例管理的复杂性,来保障实例服务的稳定和高效运行。本文根据滕圣波的演讲整理。

 

image.png

 

图:阿里巴巴高级技术专家滕圣波

本文内容架构:
1、云上服务器为什么需要无人值守?
2、阿里云无人值守的自服务实战
3、无人值守背后的数据和AI

1、云上服务器为什么需要无人值守?

运维是一种服务,既包含基础设施软件服务、也包含人力服务,服务的对象是企业中使用基础设施的业务团队,而云计算IaaS是一种运维服务,服务的对象已发展为使用云服务的开发人员和运维团队。随着云计算的广泛落地,大部分企业已经上云,当前就有100万多家用户的业务运行在阿里云平台上,阿里云平台服务的用户也越来越多。

随着平台用户规模的扩大,我们发现平台用户在ECS实例运维时普遍面临三个痛点:

(1)背景沟通成本高,为什么我的实例出问题了?
(2)人工处理需要较长的时间,为什么这个问题这么久还没有解决?
(3)客户操作不透明,问题看起来修复了,可是刚刚你做了什么?

为此,我们需要重人力投入在客服人员上让用户的问题得以高效解决。为了避免用户规模扩大带来的客户侧运维成本的线性上升,我们开始利用人工智能技术赋能用户运维管理。在无人零售、无人驾驶成为趋势的时候,我们认为未来云上服务器也将实现无人值守

事实上,阿里云弹性计算产品推出十年了,沉淀了众多ECS实例运维管理经验和异常“行为”规律。所以依托机器学习的数据驱动,我们通过异常“行为”数据的分析,构建了一套云上服务器的无人值守架构,并推出了一系列自助服务,实现了ECS实例的自诊断、自修复、自优化、自运维,帮助用户降低ECS实例管理的复杂性,从而来保障实例服务的稳定和高效运行。

2、无人值守的自服务实战

 

image.png

云计算IaaS的运维工作可以拆分为服务侧运维和客户侧运维,服务侧运维是云平台的运维工作,通常对用户不可见的,主要涉及基础设施、基础产品和上层管控三个层面,包括机房、物理设备的运维工作、资源虚拟化、资源调度、热迁移等工作。随着用户规模的扩大,这些运维工作会越来越复杂。而用户侧运维工作,是对用户自己可见的,主要是用户对ECS实例的修改操作和自动化工作,包括扩容、重启、监控、客服服务、工单反应、资源编排和运维编排等。

我们构建的云上服务器的无人值守架构,为阿里云平台用户提供了一系列的自助服务。广义上看,阿里云的自助服务囊括了ECS实例本身、实例生命周期管理、系统管理和自动化、市场和生态四个维度,如下图。

 

image.png

 

图:广义上的自助服务


狭义上来说,阿里云自助服务为用户实现了ECS实例的诊断、修复和推荐的功能。当天,阿里云自助服务已提供实例诊断工具、实例优化推荐、自动修复工具、最佳模板推荐和ECS事件自动化等一系列自助服务工具,覆盖了80% ECS常见问题,将问题解决的平均周期从几小时缩短至分钟级,整个过程无需客服人工参与,无隐私泄漏风险,做到了云上服务器的无人值守。未来随着AI+数据的不断驱动,ECS实例的诊断和修复将会越来越精准。

ECS实例的智能诊断

根据平台的数据统计,用户在使用ECS实例时主要面临四大类问题:
(1)实例无法远程访问
(2)实例无法启动/停止
(3)实例性能异常
(4)磁盘扩容未生效

所以,在智能诊断的能力上,我们覆盖了ECS系统服务、磁盘健康服务、网络健康服务和Guest OS系统配置等维度,用户一键即可完成实例的智能健康诊断。

ECS实例的自动化修复

在智能诊断完成后,我们还会为用户提供ECS实例自动化修复方案,在前者定位问题所在之后,自动化修复能够在1-3分钟内解决问题,主要完成ECS系统服务修复、网络问题修复和磁盘修复。

仅仅实现自动化修复是不够的,我们认为自动化修复还应该是透明合规的。我们通过运维编排服务OOS提供自动化引擎,通过云助手命令提供GuestOS内的执行能力,运维编排服务OOS+云助手命令共同帮助用户完成自动化修复;同时,我们开源了运维编排服务OOS+云助手命令的代码,做到一切修复逻辑对用户可见;一切修复操作还可以通过ECS实例的镜像、快照和数据备份实现回滚;通过阿里云RAM角色控制实现一切权限可控,通过阿里云操作审计ActionTrail实现一切记录可审计,做到了真正的透明合规。

3、无人值守背后的AI与数据能力

让我们实现智能诊断和自动化修复的,是冰山下强大的技术支撑——AI+数据。依托底层的数据中台,我们完成了包括物理机数据、虚拟化数据、网络数据、控制面数据和GuestOS内数据等数据的采集、清洗、分析和模型的构建;加上AI算法的不断调优,我们搭建了用户画像、决策树、预测和推荐模型等,从而保证异常诊断和自动修复越加的精准和高效。

 

image.png

当前,在整体的ECS自助服务架构中,主要依靠管控监控中心实时监测日志服务、中间件监控、API请求监控以及控制台监控和自助诊断的数据,通过机器学习引擎实现问题预警和处理,进而驱动运维编排服务OOS实现自动化修复问题。

 

image.png

通过这套AI驱动的自服务架构,当前阿里云ECS实时内存异常感知准确率在70%以上,实施预测链路延时则控制在100s以内;另外融合专家经验、案例库和知识库,我们构建了一个强大的诊断决策树,为加快问题的定位和修复提供了强有力的依据。

近两年,阿里云弹性计算团队持续不断地投入构建异常行为数据集,未来计划将其演进成为阿里巴巴集团在异常预测上的“ImageNet 数据集”并进行开源,希望能为异常预测在业内的发展贡献更大的价值。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514966.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一家化纤工厂的数字化转型之路

在数字经济的浪潮中,零售业被公认为是数字化程度最高的行业,而与此形成鲜明对比的中国传统制造业,大部分还处于观望状态。当前,国内外形势正在发生深刻复杂的变化,越来越多的制造企业希望通过业务数字化与智能化&#…

java安全编码指南之:异常处理

异常简介 先上个图,看一下常见的几个异常类型。 所有的异常都来自于Throwable。Throwable有两个子类,Error和Exception。 Error通常表示的是严重错误,这些错误是不建议被catch的。 注意这里有一个例外,比如ThreadDeath也是继承自…

变局之际,聊聊物联网的过去、现在和未来

来源 | 鲜枣课堂头图 | 下载于视觉中国大家好,我是小枣君。前两天,我去上海参观了 IOTE物联网展。通过在现场的见闻,以及和专家们的交流探讨,我深刻感受到,物联网行业已经来到了一个重要的十字路口,将会发生…

130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您的业务保驾护航

云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。 9月26日,阿里巴巴高级技术专家滕圣…

不重新打包,只修改 jar 包中的某个文件、某个类

用到的工具:WinRAR 特别注意:不能使用 7z,等其他打包工具(或者如果测试其他打包工具可以用,可以补充留言) 问题,一个已经打好的 jar 包,我只修改了其中一个类,如何替换。…

Spark On MaxCompute如何访问Phonix数据

简介: 如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,目前没有对应的案例,为了满足用户的需求。本文主要讲解使用Spark连接Phonix访问Hbase的数据再写入到MaxCompute方案实践。该方案的验证是使…

码住!Flink Contributor 速成指南

简介: 不管初衷是什么,Flink 都非常欢迎大家一起建设和完善社区。在开始具体的贡献步骤之前,我们先简要介绍一下参与贡献的几种途径,以及 Clarify 关于开源贡献的一些固有印象。 作者:伍翀(云邪&#xff0…

手机访问真机调试显示: Cannot add property markTimeline, object is not extensible 怎么解决

实战 \SpringBootVue3 项目实战,打造企业级在线办公系统 3-2 用户登陆系统的流程说明 手机访问真机调试显示: Cannot add property markTimeline, object is not extensible 解决方案: 手机开热点让电脑连接,windows防火墙关闭…

浅谈MaxCompute资源规划管理及评估

简介: 本文主要介绍如何进行MaxCompute存储资源和计算资源的评估及规划管理。 一、MaxCompute资源规划背景介绍 MaxCompute资源主要有两类:存储资源、计算资源(包含cpu和内存)。存储资源用于存储MaxCompute的库表数据,计算资源用于运行sql、…

如何无缝迁移 SpringCloud/Dubbo 应用到 Serverless 架构

作者 | 行松 阿里巴巴云原生团队 本文整理自《Serverless 技术公开课》,“Serverless”公众号后台回复“入门”,即可获取系列文章 PPT。 背景 通过前面几节课程的学习,相信大家对于 SAE 平台已经有了一定的了解,SAE 基于 IaaS 层…

从程序媛到启明星辰集团云安全总经理,郭春梅博士揭秘云时代安全攻防之道...

从无序中寻找踪迹,从眼前事探索未来。2021 年正值黄金十年新开端,CSDN 以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,推出年度重磅企划栏目——「拟合」,通过对话企业技术高管大咖,跟踪报…

汽车仿真效率30%↑、药物研发效率20倍↑,阿里云获HPC CHINA 2020“最佳行业应用奖”

简介: 近日,HPC CHINA 2020 大会以线上线下——双线联动的形式同步召开,近 300 位重量级高性能计算(超算)领域专家学者与业界精英人士、CCF 高专委委员汇聚郑州,共同探索高性能计算的发展。 在本届 HPC CH…

linux 安装mysql5.7.25_生产版本

文章目录一、配置安装1. 部署总览2. 下载软件3. 解压重命名4. 创建组5. 安装数据库6. 配置my.cnf7. 添加开机启动8. 配置数据木库9. 启动mysql10. 登录修改密码11. 允许远程连接一、配置安装 1. 部署总览 服务器端口说明192.168.52.1223306master 2. 下载软件 mkdir /app cd…

山石网科发布重磅容器安全产品“山石云铠”,云安全版图再下一城

编辑 | 宋 慧 出品 | CSDN云计算 5月18日,山石网科正式发布了云安全的重磅新品——山石云铠。至此,山石网科云计算安全版图补全“容器安全”板块,已完成目前主流虚拟化技术及云服务场景网络安全产品的全面覆盖。 虽然是非常重要的产品发布&…

平台式可复用的应用集成能力,助您敏捷、高效的完成企业数字化转型

简介: 企业数字化转型往往是一个长期持续的过程,产品变革和技术迭代也在加速演进,连接性是数字化转型的关键推动因素,甚至将决定成败。为了应对普遍的集成要求,企业需要新一代更敏捷的集成能力框架,基于高效…

阿里云DNS 新增云上线路的智能解析功能

简介: 企业在云上部署单元化架构或内部服务链路时,需要考虑让数据(单元)离用户更近,避免跨单元获取数据,以此来满足自身低延时的诉求。阿里云DNS 新增基于云上链路的调度功能,进一步优化DNS智能…

进击的数据中台,企业数字化转型的新引擎

经历过“追捧”和“质疑”等种种考验后,当前,数据中台已经走到验证其价值的关键路口。 数据中台是企业数字化转型新引擎 在人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,2019年,数据中台在众多赛道中脱颖而出&a…

关于低代码真实技术趋势,听低代码巨头 Mendix 怎么说

作者 | 宋慧 出品 | CSDN云计算 在 2021年初正式宣布进入中国市场 之后,Mendix 在近日向媒体重点披露了关于低代码的技术方法论,以及近四个月在中国市场的进展。 Mendix 的低代码技术方法论 对于低代码常被讨论的模型驱动部分,Mendix 希望做…

架构设计的本质

简介: 实际上架构只是系统设计里面的一个重要环节,除了架构还包含了商业诉求,业务建模,系统分析,系统设计等重要领域。本文尝试从更高视角重新审视架构设计的工作,把架构设计的上升到系统设计的立体空间去探…

ios 蓝牙命令发送_实战恢复cisco 2950交换机的IOS

本来想用两台思科交换机做实验的,可是通过console口进入其中一台交换机后却发现这个台交换机的IOS文件丢失了。本来正常进入交换机后应该是首先进入到用户模式的,而且提示符应该是“>”,而现在提示符却成了“:”,如…