阿里智能运维平台如何助力研发应对双11挑战

摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《阿里智能运维平台如何助力研发应对双11挑战》演讲整理,在回顾了阿里巴巴运维历程后,为我们讲解了阿里基础运维平台和应用运维平台,并介绍了阿里相关运维产品及阿里在智能运维平台上的发展成果。

12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《阿里智能运维平台如何助力研发应对双11挑战》演讲整理,在回顾了阿里巴巴运维历程后,为我们讲解了阿里基础运维平台和应用运维平台,并介绍了阿里相关运维产品及阿里在智能运维平台上的发展成果。内容如下。

分享嘉宾:
图片描述

如柏(毛茂德),阿里巴巴高级技术专家,Apache顶级项目CXF初创成员之一,阿里集团基础架构事业群运维中台负责人,亲历者。

如柏:双11已经过去两周了,但双11的热度还在继续。双11从09年开始,到12年就变成了一个节日,变成了消费者日,商家感恩消费者的节日。不仅是阿里奉献给国人的一个节日,更是阿里奉献给世界的全球购物狂欢节,因为今天阿里的业务已经遍布全世界。业务的爆炸式的增长给技术带来前所未有的挑战,今年双11在技术上又创造了新的高峰。所以在在阿里内部,我们也常说双11是技术的练兵场,是业务和技术的大协同。每年双11后,阿里都会给大家分享阿里在双11中的前沿技术理念和技术成果,运维是阿里双11技术分享以来的首次分享。运维是业务的重要支撑,运维平台如何让业务在如此迅猛的发展下依然稳定、高效的发展是对我们巨大的挑战。

今天我给大家分享的是阿里智能运维平台如何协助研发应对双11的挑战。今天的分享主要分为四个部分:
回顾阿里运维历程
基础运维平台分享
应用运维平台分享
阿里在智能运维平台上的发展成果
阿里运维历程
阿里的运维和很多公司有相似之处,也经历了四个阶段:
使用命令行工具运维
系统化工具运维
自动化平台
智能化平台与无人值守实践
每个阶段的转变都是一个非常漫长的过程。在这个过程中我们一直秉承一个原则:让机器做人去做的事;让系统做可重复的事;让系统做人做不好的事。

运维是一个非常大的概念。很难用一两句话能描述清楚,在维基百科中,Operations有十几个解释。在我看来中文的“运维”其实非常好的描述了运维的本质,“运”就是让业务稳定持续的运行,“维”就是运行过程中针对任何出现的问题进行维护,使业务保持继续运行的能力。运维本质就是让业务稳定、高效的运做,并在此基础上逐步降低运维成本。运维的职责覆盖了产品从设计到发布、运行、成本技术优化及至下线的生命周期。

我们把运维分成五个层次。
资源:Quota管理、资源规划、资源采购、资源调度、bootstrap
变更:变更信息、应用变更、基础软件变更、网络变更、IDC变更
监控:基础监控、业务监控、链路监控、报警、视图
稳定性:多活、故障修复、故障定位、故障注入、全链路压测
规模化:一键建站、搬迁、腾挪、单元调整
在产品发布前,运维需要对产品的整体架构做合理评估,把控资源诉求,分析产品是否有单点、是否有足够的容量,是否可容错,是否有强耦合等。资源规划评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本。
当所有的资源都到位后,把服务部署到线上,形成线上运行的业务。由于软件需要不停的迭代,这个过程中会发生如网络架构的变化、服务器淘汰等各种变更。
在运行过程中,监控是必不可少的。基础服务、基础软件、业务、舆情等各方面都需要做监控。
互联网的快速发展导致业务必须具备非常快速的迭代、快速部署,这要求运维要有规模化的能力,能进行快速复制。比如,如何让新收购的海外公司融入集团运维体系里,这是一个非常关键的业务。
基础运维平台
运维的五个层次不可能只用一个系统来承载,每个层次都是有非常多的系统。基础运维平台和应用运维平台主要体现在资源和变更层次,一些监控、规模化的内容也涵盖在这里。我们把基础运维平台定义成IT运维的基础设施。

基础设施是怎样的?电、水、桥梁、机场都是日常生活中的基础设施,这些基础设施都有一些共同特征:稳定、安全、统一、有预见性、无需感知。如果电力的供应不稳定,经常发生断电,我们的财产和日常工作都会遭受到非常大的损失。如果自来水不安全,居民的生命也会造成非常大的损。在运维领域,我们也需要有稳定、安全、统一、有预见性的基础设施,保证业务的持续稳定发展。

StarAgent就是阿里运维的基础设施,它的稳定性已经达到99.995%。它也非常安全,因为它关系到整个阿里巴巴所有服务器、所有网络、所有业务。它有自我保护措施,保证任何人的操作都不影响整个集团的业务。

基础设施的统一包含统一的标准和统一的数据。统一有三个好处;
保证不需重复建设一些系统;
便于做全局优化;
便于统一规划,避免不必要的返工。
多个BU建设几个同样的基础设施跟一个BU建设一个基础设施的成本投入是有很大差别的。如果不同团队做同一个设施,只有10%的差别,而专门的团队做基础设施可以做的非常精非常深。在阿里,我们利用中台的思想,把所有的基础设施统一到StarAgent上。
统一基础设施使我们能看到全局概况而不是某一个BU的情况,方便做全局的优化和高度抽象,保证系统具有可扩展性,能适应所有场景,这也是阿里中台思想的核心概念。
如果修马路的人只关注修马路而缺乏统一规划思想,忽略管线的铺设,把马路修完后又重新刨开处理管线的问题,就会造成很大的损失。运维基础设施也是一样,统一规划能避免重复的返工和成本的浪费。

基础设施必须具备预见性。新一代StarAgent在设计之初就考虑到了服务器数量和业务增长的趋势对稳定性和性能可能带来的冲击,保证在3-5年内无需重新架构,在这两方面都必须有预见性的考虑。
基础设施还有一个特点,就是我们不需要任何人感知到它的存在。如果人们都能感知到基础设施的存在,说明基础设施不够稳定,性能不够好。阿里做到现在很少有研发真正能感知到StarAgent系统,就像我们感知不到电,感知不到水,因为现在这些基础设施已经非常稳定,无需我们关注。
阿里运维基础设施产品介绍
堡垒机主要是负责管理整个阿里账号、权限、访问控制、高危拦截、事后审计。阿里堡垒机在阿里是非常具有特色和竞争力的产品,能同时容纳5000人在线,也符合ISO的各个行业规范。

图片描述

StarAgent是一个运维通道,是基础设施中最核心的功能。它主要分3层架构:中央管控、每个机房集群的管控,物理机、虚拟机、容器上的Agent。Agent是一个插件式管理。截止到目前为止,我们已经有150多个插件,1/3的插件属于后台进程类。

图片描述

StarAgent的职责是保证所有插件、所有后台进程的稳定运行和作为运维的通道。我们在资源上做了很多限制,在插件安装前,开发者会定义每个插件所用到的内存、CPU、磁盘、网络上的流量。如果进程的运行超过限定范围,我们就把这个进程杀掉来保障服务器的安全。在运维通道方面,我们做了同步命令执行和异步命令执行,目前日均访问量达1个亿。
在安全方面,我们和集团的安全部合作,安排安全演练和攻防演练,保证系统的安全。我们也做了很多命令的拦截、全链路命令的加密等。
虽然系统庞大,需要的运维的人员并不多,95%的工作都已经自动化,包括IP端的自动关联、Agent的自检自愈等,因此百万级服务器只需半个人负责运维。当然要从半个人运维进化到无人值守运维是需要付出巨大的努力的。

蜻蜓是基于P2P技术的智能文件分发系统,在架构上与StarAgent类似。下图为蜻蜓与wget的技术对比。X轴代表并发客户端数量,从200到7000;Y轴代表完成一个500Mb文件分发的耗时。

图片描述

从图中可以看到,随着客户端数量的增长,蜻蜓的耗时时间都控制在10秒左右,而传统文件分发工具耗时升高,甚至在客户端增长到1200个后,整个集群已无法工作,因为数据源已经被打爆了。蜻蜓不仅可以保护数据源、加快分发速度,也能节省跨IDC带宽,尤其在跨国业务上,能节省很多跨国带宽。在今年11月10日10点, 10000PB同时分发5GB预热数据到上万台服务器,这对蜻蜓是一个前所未有的挑战,也是业务方首次第尝试。今年双11我们完美完成了这个任务,并达到100%的成功率。

蜻蜓运用的主要场景是软件安装,阿里的发布系统也非常依赖于蜻蜓,目前阿里已整体实现Pouch化,所有的业务都已被容器化,在容器镜像的传输方面也是用的蜻蜓。蜻蜓除了支持特大文件传输外,还包括断点续传及一些智能化特性如智能网络、I/O的流控、智能磁盘I/O控制、智能动态压缩等等。

图片描述

蜻蜓的访问次数已经突破了20亿次,分发量方面已突破了4PB/月,从图中可以看到分发量和镜像分发的占比,通过动态压缩,整体提速了30%。

蜻蜓已经在GitHub上开源了,开源协议是Apache2.0,蜻蜓开源版可以在https://github.com/alibaba/dragonfly访问获取。蜻蜓企业版可以在云效或阿里云容器服务中访问获取。开源版与企业版蜻蜓有略微差别。
开源版功能:P2P文件分发,容器镜像分发、局部限速、磁盘容量预热
企业版功能:断点续传、全局限速、镜像预热、支持内存文件系统、智能网络流控、智能动态压缩、智能调度策略
图片描述

镜像预热可以帮助我们在业务庞大时快速拉取镜像。比如应用有上万台服务器,如果发布过程中同时拉取镜像,耗时是非常长的。所以我们在发布前把镜像推送到就近机房的节点中。在真正发布时,就近拉取镜像,这样能大幅度减小的耗时。在实际运营中,根据双11的数据统计,经过预热后镜像拉取耗时降低了67%。
应用运维平台
应用运维平台是真正面向研发的运维平台,是研发经常需要用到的平台。在应用运维平台上,我们提供了以下几个能功能。第一个功能是基础设施即代码。一个应用可以通过代码描述的形式把它需要的所有基础设施、所有资源描述清楚,并保存在CMDB上作为用户对应用的资源的需求。所有资源的变更都会被保存下来并且都是版本化的,运维人员可以非常清晰的看到资源的变化情况和操作者是谁。基于这个文本,定义后台所有资源的生产。我们还有定期巡检,查看实际资源与用户定义是否有差异。如果有差异,我们会自动化地帮用户调整资源,资源的弹性扩容和缩容也是基于这种方式做的。基于传统模式生产资源构建应用与这种模式相比效率相差几乎20倍。通过这种方式AE能快速在全球部署一个站,快速复制俄罗斯的一个站点等,得到很大的效率提升。

图片描述

第二个功能是无人值守发布变更。传统研发在发布过程的每一步结束时查看各种监控指标及应用日志。在无人值守发布过程中,这个工作交给系统,系统会告诉你哪项指标有异常。人只需要在接收到指标时做评判和决策。判断异常是不是问题,如果不是,类似的问题可能不会再提出来。举个简单的例子,我们在写代码的时候都会写日志并保存下来,分析日志里是否发生异常。当分析出异常时,判断这个异常是否从未发生过,如果从未发生过,我们就会提示用户有一个新的异常,发布暂停并让用户确认。如果这个异常曾经发生过,但频率没有这次发布中高,我们也会认为这是一个异常并提示用户。类似这样的指标共有四十多项。通过无人值守发布,降低在发布过程中可能产生的业务故障。实际11月11日的24小时内,我们有大量的发布同时发生,无人值守系统非常好的保障了上线代码的质量。

图片描述

应用运维平台在WEB端和移动端都可以使用,用户非常容易就可以在手机端得到无人值守发布、资源的创建等情况的消息并快速做出决策。除手机屏外,在阿里双11协同作战中也用到了很多监控大屏,这对沟通成本的降低非常有帮助。实际上,整个业务运维平台上有非常多运维大屏、业务大屏、技术大屏等。整个业务运维平台有PC端大屏、移动端小屏、作战大屏。下图是阿里全新设计的UI,也是在今年双11用到的大屏。

图片描述
阿里智能运维进展
AIOps是2016年Gartner发布的新概念,强调基于算法的IT运维实践,核心是数据和机器学习。在AIOps闭环里会用到监控,观察所有业务运行状况,将这些数据分析处理,最后形成自动化执行任务。在智能运维里,最重要的是场景、数据、算法。所以AIOps跟阿里运维过程是密不可分的,在整个智能运维过程中核心问题是如何保证业务发展的稳定,在业务发展稳定后如何提升效率和降低成本。

图片描述

“亻动”是日语里的自动化的“动”字,概况了我们目前在运维领域的状态,实际上我们所谓的自动化还是需要人的介入,人是非常关键的一个因素,所以智能化运维跟最终实现无人值守运维还存在非常大的差距。

下图是智能化运维的整体划分,跟自动驾驶非常相似的,从人工运维过渡到自动化,并且能一键化提示,最终实现无人值守运维的过程。

图片描述

我们在运维平台做的最多的两件事是如何保证业务的稳定性和在业务稳定的基础上如何提升运维效率。在稳定性方面,我们做了异常检测、根因分析、根源定位,并且尝试做故障的自愈、故障的预测。在运维效率上我们做了智能参数的调整尝试。蜻蜓跟IDST合作在智能网络流控上做了一些工作,它的核心思想是蜻蜓在网络流控上提供参数,帮助我们设定蜻蜓可利用网络带宽的量,保证业务不受影响的情况下,最大限度的利用所有网络资源。之前我们让用户非常方便地设定参数,实际上这是不科学的。我们会做一个全局设定,通过智能化的参数调控、实时大数据分析知道下一个时刻需要用多少网络带宽,所有参数包括网络、磁盘、智能压缩都不再需要通过人为设定,而是系统在运行中自动化调整到最优的状态。

在自动化操作包括扩容、限流、降级也是同样的思想,不需要再人为设定固化的参数,让系统自动化的调到最优的状态。我们核心的思想就是希望以前基于专家的经验转化成算法和机器学习,充实到整个运维平台里。

图片描述

上图是整个StarOps产品体系,最底层是所有的资源,包括云上资源、混合云资源。在这之上是基础运维平台,基础运维平台里由很多的模块组成的,如堡垒机、文件分发等。在基础运维平台上是应用运维平台,它涵盖资源、变更、监控、故障治理、日常运维等。横向的来看我们的算法平台覆盖了所有板块。除了上图显示的这些系统外,还有很多流程规范、运维红线、故障管理等。面向用户侧的是最上面的一层,有PC端的web、API、SDK、命令行、移动端运维、大屏等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/523149.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WebStorm-2019.2.3 下载安装

文章目录一、下载:WebStorm-2019.2.3二、安装三、激活3.1 编辑hosts文件,填写一些内容3.2 运行WebStorm,填写激活码3.3 激活日期为2020年一、下载:WebStorm-2019.2.3 官网下载 https://www.jetbrains.com/webstorm/ 点击“DOWNLO…

新一代数据库技术在双11中的黑科技

摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《新一代数据库技术在双11中的应用》演讲整理,本文主要从数据库上云和弹性调度…

双11万亿流量下的分布式缓存

摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《双11万亿流量下的分布式缓存》演讲整理,本文主要从Tair发展和应用开始谈起&a…

任正非:华为鸿蒙将比安卓快 60%;小米已官方回应侵权偷图事件;博通正考虑收购软件公司,其中Tibco和赛门铁克为重点目标……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 故宫宫廷和名创优品联名推出…

2017双11交易系统TMF2.0技术揭秘,实现全链路管理

摘要: 本文是《2017双11交易系统TMF2.0技术揭秘》演讲整理,主要讲解了基于TMF2.0框架改造的交易平台,通过业务管理域与运行域分离、业务与业务的隔离架构,大幅度提高了业务在可扩展性、研发效率以及可维护性问题,同时以…

争分夺秒:阿里实时大数据技术全力助战双11

摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《争分夺秒:阿里实时大数据技术助战双 11》演讲整理,主要讲解了阿里…

台式电脑一般价钱多少_看完才明白,电脑一体机和台式机哪个好?

一体机和台式机电脑哪个好?电脑一体机是目前台式机和笔记本电脑之间的一个新型的市场产物,它将主机部分、显示器部分整合到一起的新形态电脑,该产品的创新在于内部元件的高度集成。台式机分为主机和机箱,是分体存在的,…

Hive精华问答 | Hive的数据模型是怎样的?

Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据…

网络虚拟化技术为双11提供灵动网络

摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《网络虚拟化技术为双11提供灵动网络》演讲整理,主要讲解了混合云技术的应用与…

阿里1682亿背后的协同研发云——云效公共云正式商业化

摘要: 2017年12月20日云栖大会北京峰会,阿里云宣布其一站式企业协同研发云产品——云效公共云版本正式进入商业化服务阶段,同时云效还发布了三大新功能模块:跨团队联合作战的项目集、多维度测试服务、便捷高效的移动端工作台。 20…

符号库匹配不对的原因_中频点焊机焊接螺母有流渣是什么原因造成的?-苏州安嘉...

中频点焊机焊接螺母有流渣是什么原因造成的?主要的原因是输入热量过大,焊接区域金属熔化溢流出产生的;中频点焊机焊接螺母有流渣是螺母焊接过程中常见的问题,也是使用过程最需要避免出现的问题,因为这影响到螺栓无法通…

5分钟,带你了解不同类型的云计算!

戳蓝字“CSDN云计算”关注我们哦!译者 | 风车云马要掌握云计算的核心内容,需要很好地理解三种云:私有云、公共云和混合云。本文让您快速了解它们的存在原因、实际含义、它们之间的区别以及为什么不同的组织选择使用不同的云模型。为什么有三种…

数十万应用结点全息监控,ARMS新上线的应用监控神器到底有多牛?

摘要: 就在不久前,2017年阿里双11刚刚创下电商史上的新销售奇迹,24小时交易金额达1682亿,每秒交易创建峰值325000,每秒支付峰值256000!在这个海量交易背后是数十万个结点规模的应用的高效运行。 就在不久前…

easyui-textbox锁定按钮不锁定_不放水了!湖人G5改穿曼巴球衣,热火输定了,詹姆斯提前锁定FMVP!...

在昨天湖人赢球后,NBA著名评论员帕金斯开玩笑的建议:要不G5湖人换上曼巴球衣吧!现在这句玩笑话成真了。湖人官方在今早宣布,在G5他们将会改穿曼巴球衣,而原本计划的是G7才会穿的,而现在明显湖人等不到G7了。…

阿里云迁云方式大汇总

摘要: 前不久,阿里云发布了一款迁云神器,即 阿里云迁云工具,使用该迁云神器您可以方便快捷地将服务器迁移至阿里云。 其实,除了迁云神器之外,还有其他迁移服务器至阿里云的途径。 以下分别从迁云方式和服务…

2019年技术盘点容器篇(三):阿里专家谈容器:既叫好又叫座? | 程序员硬核评测...

戳蓝字“CSDN云计算”关注我们哦!作者:刘晶晶据相关调研机构出具的报告数据显示,目前应用容器市场规模将从2016年的 7.62亿美元增长到2020年的27亿美元。显而易见,引入容器所展现的巨大灵活性有效推动了其采用速率,使企…

【产品活动】阿里云GPU云服务器年付5折!阿里云异构计算助推行业发展!

摘要: 阿里云GPU云服务器全力支持AI生态发展,进一步普惠开发者红利,本周将会推出针对异构计算GPU实例GN5年付5折的优惠活动,希望能够打造良好的AI生态环境,帮助更多的人工智能企业以及项目顺利上云。 活动规则&#xf…

更改盘符不成功_DVD光驱不读盘怎么解决?DVD光驱能刻录吗

外置移动光驱就是在机箱外面放置的光驱,具有便携、移动的特点。具有多种数据接口,主要还是USB接口,可以读取CD、DVD以及刻录CD。对于光驱你了解多少呢?DVD光驱不读盘怎么解决?它还能刻录吗?下面我们就一起去…