阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率达到了每个月至少85%,物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。

 

大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。

在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域- 里做的大量创新:

  • 我们已经开始大规模使用液冷集群来支持高密度计算
  • 我们在FPGA建设了统一的编译平台,可以提升研发效率接近30倍以上
  • 网络端我们也开始做大量的创新,总的带宽从25G到100G到400G

这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域,让AI重塑现有的基础设施。

智能化可以给未来的基础设施带来什么?

我们把智能化带来的价值分为三层:

 

最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。

第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对IDC机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。

最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将所有故障的响应方式从被动响应转化为主动服务。

阿里巴巴运维体系重塑

智能化建设最关键的三件事情:

第一, 要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二, 建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三, 建立TCO模型,实现很好的反馈机制,利用反馈不断优化我们的模型。

在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这3大平台的改进与思考。

一、 基础设施规划与交付平台

首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。

我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。

第二个改造是,在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。

我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

二、集群自动化运维平台

集群自动化运维平台解决的核心问题是:

一、 怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。

但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?

第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。

在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:第一,基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;第二,通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。

第二,我们引入了一些算法去做智能异常检测,包含两部分:第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,在万分之八的误报率条件下,召回率比业界最新进展提升20%以上,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

三、数据中心智能运营平台

最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。

怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近20%的机柜密度。

同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化,实现全方位的智能化建设。

我今天分享就到这里,谢谢大家!


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jmeter5 语言中文

文章目录1. 临时调整2. 永久中文1. 临时调整 2. 永久中文 默认启动中文 进入安装目录:apache-jmeter-5.1.1\bin\ 找到 jmeter.properties,打开 搜索“ languageen ”,前面带有“#”号 去除“#”号,并修改为:language…

13岁小孩都跟我抢Python了,完了!

以下来自一位程序员母亲和工作人员的对话。程序员妈妈:您好,可以帮我推荐一本适合我家小孩看的编程书籍吗?兔子:可以的呀,《Scratch从入门到精通》,这本书适合小孩学习,您可以先看一下哦~程序员…

Nacos服务发现控制台预览

Nacos是阿里巴巴中间件部门最近开源的一款用于服务发现和配置管理的产品。在既0.1版本发布基本功能和0.2版本发布与Spring生态结合的功能后,0.3版本将释放全新的控制台界面。配置管理功能相关的控制台,将会由阿里云商业产品ACM控制台改造而来&#xff0c…

阿里巴巴高级技术专家至简:聊工程师思维

为什么想到写这篇文章?作者是想通过对工程师思维的分析和解读,让工程师能正确对待那些在现实工作中看上去与本职岗位无关,却对团队效能影响极大的一些点和一些事。 至简:阿里巴巴高级技术专家,是集团Service Mesh方向的…

SoapUI 5.4.0 中文乱码

测试案例&#xff1a; <soapenv:Envelope xmlns:soapenv"http://schemas.xmlsoap.org/soap/envelope/" xmlns:cus"CustomNamespaces"><soapenv:Header/><soapenv:Body><cus:getUser><cus:in0><![CDATA[测试中文乱222码]…

IDEA的基本使用:让你的IDEA有飞一般的感觉 | CSDN 博文精选

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 琦彦责编 | 阿秃转自 &#xff5c; CSDN 博客1.设置maven在File->settings->搜索maven Mavan home directory--设置maven安装包的bin文件夹所在的位置 User settings file--设置setting文件所在的位置 Local repo…

Apache JMeter 测试webservice接口

文章目录Apache JMeter 测试webservice接口流程一、设置基础组件1. 添加一个线程组2. HTTP信息头管理器3. HTTP请求4. 添加一个察看结果树5. 添加一个聚合报告二、配置基础组件2.1. 找到SoapUI 请求头信息2.2. 设置http头管理器2.3. 接口信息同步三、发送测试3.1. 发送请求3.2.…

函数计算搭建 Serverless Web 应用(三)- 三分钟搭建 Web 应用

简介 阿里云 函数计算(Function Compute) 是事件驱动的全托管计算服务&#xff0c;是阿里云的 Serverless 计算平台。基于函数计算构建应用&#xff0c;您无需管理服务器等基础设施&#xff0c;而是专注于应用逻辑的开发&#xff0c;大幅提高开发效率。 函数计算搭建 Serverl…

备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何设计?

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 沧漠责编 | 阿秃导读&#xff1a;Kubernetes 的出现使得广大开发同学也能运维复杂的分布式系统&#xff0c;它大幅降低了容器化应用部署的门槛&#xff0c;但运维和管理一个生产级的高可用 Kubernetes 集群仍十分困难。本文…

移动互联网+智能运营体系搭建=你家有金矿啊!

每个企业都有许多的数据&#xff0c;但能否将数据转化成商业价值&#xff0c;是企业非常关心的问题。阿里巴巴曾自嘲是一家坐在数据的金矿上啃着馒头的企业&#xff0c;前几年集团积累了很多的数据&#xff0c;但这些数据并没有真正应用起来&#xff0c;受限于几个原因&#xf…

Apache JMeter 测试webservice接口 中文乱码

文章目录1. http请求编码设置utf-82. jmeter.properties修改默认编码1. http请求编码设置utf-8 2. jmeter.properties修改默认编码 找到apache-jmeter-5.2.1\bin\jmeter.properties文件 在jmeter.properties文件中找到 #sampleresult.default.encodingISO-8859-1 替换为 samp…

【实操手册】如何把一场直播录制下来?

许多用户使用直播服务时&#xff0c;需要把正在直播的视频录制下来进行存储或方便后续的回看。为了满足用户需求&#xff0c;阿里云视频直播服务提供了直播录制功能&#xff0c;本文将对这两种形式的录制方法进行简单介绍。 一、按场景录制 针对不同的场景进行录制配置 • 按…

搞不清边缘计算几款产品差异?动动小手点这里!

最近阿里云新上了一款产品&#xff0c;边缘节点服务&#xff08;简称ENS&#xff09;&#xff0c;随着产品运营推广不断深入&#xff0c;偶尔会遇到用户关于ENS产品与其他几款产品的疑惑&#xff0c;典型问题比如&#xff1a; ENS是部署在CDN位置&#xff0c;用户是不是可以直…

Apache JMeter 压测webservice接口

文章目录一、压测设置和参数说明二、服务台控制监控三、查看结果树四、查看聚合报告一、压测设置和参数说明 压测设置说明线程数并发数量&#xff0c;能跑多少量。具体说是一次存在多少用户同时访问。Rame-Up Period(in seconds)表示JMeter每隔多少秒发动并发。理解成准备时长…

阿里云自研新一代企业云数据库POLARDB背后的技术

从2008年到2018年&#xff0c;阿里巴巴的数据库技术已经发展了10年的时间&#xff0c;10年的时间从AliSQL到RDS&#xff0c;再到自研POLARDB&#xff0c;阿里巴巴数据库技术得到了极大的提升。那么在阿里云自研新一代企业云数据库POLARDB背后有哪些技术呢&#xff1f;本文中&am…

python wxpython radiobutton 能不能默认不选择_Python啥都行_Robot自动化测试

文章目录Robot介绍与环境搭建Robot特性初探Robot 技术架构WxPython GUI工具箱Robot FrameworkRIDE安装第一个案例启动RIDE自定义一个函数新建项目及测试用例导入自定义库函数使用自定义函数运行测试用例及查看其报告Robot介绍与环境搭建Robot特性初探Robot Framework是一个基于…

为什么嫁人就选程序员!

本文的重点是&#xff1a;“为什么年轻漂亮的小姑娘都瞄准了程序员小哥哥”“理发38&#xff1f;太奢侈了&#xff01;淘宝20买套剪刀自己可以用好几年。”“衣服太贵了&#xff0c;我觉得优衣库的那件打折就已经很好了”“上个月的一千块钱的零花钱没花完&#xff0c;这个月先…

数字化转型 移动化先行 云栖大会上发布了哪些移动研发新利器?

随着企业使用互联网技术的不断深入&#xff0c;企业在产品研发、供应链管理、市场运营及企业内部的场景当中&#xff0c;生产效率得到大幅度提升。随着移动互联网技术在社会层面深度普及&#xff0c;移动设备的普及性使得企业成为数字化转型的最佳载体。本文以2018年云栖大会杭…

c语言cis,c语言小白学习历程第五篇

学习目标&#xff1a;难的咱也看不懂&#xff0c;先把简单的看了再说&#xff0c;加油L 冲冲冲&#xff01;学习时间&#xff1a;2020年11月1日学习产出&#xff1a;回调函数学习&#xff1a;回调函数说白了就是一个通过函数指针调用的函数。如果你把函数的指针Callback(地址)作…