实战:阿里巴巴 DevOps 转型后的运维平台建设

摘要: 阿里巴巴DevOps转型之后,运维平台是如何建设的?阿里巴巴高级技术专家陈喻结合运维自身的理解,业务场景的分析和业界方法论的一些思考,得出来一些最佳实践分享给大家。

前言

“我是这个应用的 Owner”是阿里巴巴DevOps转型的重要策略,运维有了这个策略以后,PE大量的日常工作就可以释放出来,会有更多的时间去思考沉淀,去做编码,去做以前不曾做的事情。

运维的三个阶段

图片描述

第一阶段:黑屏,三角形是代表整个运维给用户的一些体感或者给研发的体感,人工运维,目前很多企业可能还是这样。

第二阶段:白屏,自动化运维,以前把脚本做成工具去弄,有什么特征,人push机器去干活,自助运维。

第三阶段:用户对运维体感很少,但是运维这个领域是不变的。最重要的是人机交互变少了,无屏虽说是不可能的,非常极端,但是个趋势,少量的人机交互,它有自决策、自驱动。

自动化运维基础

做自动化运维,我认为有四大基础。

第一:运维标准与规范

我们的标准有什么好处,让研发 follow 这个标准,标准会在工具里固化。

第二:泛监控,运行时,静态,数据化,可视化

泛监控,不是说传统的监控,是把线上想知道的一切都数据化,最终数据不是给人看的,是给机器去消费的,数据是我们的生产资料,不是可视化,那不是我们的目标。

第三:CMDB

1.CMDB 应该放什么,一般放服务器相关的、网络相关的、应用相关的这三个维度的相关信息。

2.经常有人会说 CMDB 不准,数据不准是因为没有把数据生产和数据消费形成闭环,如果形成了闭环数据不准,那是因为你不用这个数据,所以不准。

第四:高效的CI/CD/CD

我们一定要具备快速的交付能力,主要体现这两个方面:第一,新开发的能力能不能快速上线,第二,想扩容一台机器能不能快速扩出来。这两个能力抽象出来是三块。
持续集成(CI),很多人说持续集成工具不好用,效率低,其实持续集成的本质是要自动化测试。如果研发部不具备自动化测试的能力,持续集成怎么做都是失败的。
持续集成里最重要的一点就是要推行单元测试、集成测试还有系统测试,单测是保证自己没问题,集成测试是保证跟上下游没问题,系统测试是保证整个系统没问题。
持续交付(CD),有很多人说持续交付本质是一个 Pipeline,CI的目标是什么?快速正确打一个包出来。CD的目标是什么?能够快速把一个包在不同的环境验证它是ok的,可以放到线上去,这就是持续交付要干的事。持续交付里很关键的一点我们要解决,就是它的环境一致性、配置一致性。环境一致性可以用Docker解决,Docker 本身就是一种标准化的东西。所以说第一条用 Docker,肯定是标准化的,另外一个问题,配置是不是一致性,是不是动静分离。
持续部署(CD),是一种能力,这种能力非常重要,就是把一个包快速部署在你想要的地方。
PS:持续部署的几个痛点

1.对包的文件的分发,阿里有一个叫蜻蜓的产品,是做了 SP2P,在 P2P 的基础上加了一个 Super。

2.应用启动,很多应用启动的时候要两三分钟,这是很有问题的。

3.部署起来以后这个业务是不是正确的,大家一定要做一个 HealthCheck,不是运维做,是PE做,一定要把这个要求说出来,执行 HealthCheck 这个脚本。

运维系统的重要特性

中间件研发首先关注稳定性,其次是效率,然后是易扩展。运维研发里面的六个重要特征,每一个都非常重要,以下是我感触比较深的几个。

图片描述

1.高可用

在做同城容灾演练的时候,我把关一切,结果发现运维系统挂了,救命的东西没有了怎么办?所以说运维系统一定要是高可用,不一定是高并发。

2.幂等性

幂等性是分布式系统设计中十分重要的概念,这个也非常重要。

3.可回滚

这个是做运维最基本的一个 sense,你做的任何操作是不是可控的。如果真正做可回滚,其实事情没有这么复杂。

4.高效率

如果你的企业发展非常快速,你的规模性效应已经来了,你的运维系统一定要具备很高效率,快速扩容、快速部署这个效率我们要追求极致。

研发定义运维,配置驱动变更

图片描述

2015年11月4日设想的架构图

从最下面看,是我们的基础设施,提供三种能力,包括集散、存储、网络。从右下角的位置看,画的是一个泛监控,它会知道系统、应用等,在旁边标了一个字,现状,我要通过这个现状把线上的系统全部数据化,然后放到决策中心。

左上角有 CMDB,现在很多变更系统,很多强调流程。我本人是做研发出身,非常抵触流程,流程不是一个效率工具,它是阻碍效率的。

比如故障搞完以后就是一堆的流程,非常阻碍效率,是质量控制的一个工具。流程不是不要,是把流程做到系统里面去,让系统帮人做决策,而不是人在那里点。

CMDB 定义了我刚才说的目标,现状通过监控拿到了,目标也知道了,这个时候还觉得这个事情很复杂吗?我认为这看你怎么去做。想做成人工还是做成自动或者做成智能,都取决于这个地方。所以智能里一定要有数据。

举个例子,通过智能分析出目标状态是使这个应用有100个VM,但是现在状态只有80个,一看这两个不一样,要扩容20台,如果系统做得更智能一点,通过图上左边的事件中心提示我20台负载较轻的放在哪,可以调度过去,然后去做执行变更。

基于这些东西得出来两个结论,“研发定义运维”,“配置驱动变更”。

为什么是研发定义运维?

研发定义运维(DDO),研发最贴近业务,最应该清楚这个业务应该具备什么样的能力,只有研发才知道这个业务KPS是多少。

为什么是配置驱动变更?

配置就是把目标改变一下,你跟我说一个运维场景,我可以在这个图里面 run 起来,配置只需要改你的目标状态,比如把你的状态10VM 变成15个VM。

这就是“研发定义运维,配置驱动变更”前因后果的思考。

运维工具与方法论

图片描述

精益发现价值

价值来源于用户的需求,而不是自己的YY,我们的价值来源于用户。

精益对我最大的感触就是要发现价值。精益思想,什么东西是有价值的,能够对用户带来物质上的或者身体上的愉悦的东西就是有价值的。

今天也有人问,DevOps 团队是该拆还是该合,我想他应该首先弄清楚面对的是什么样的问题,问题的优先级是什么?如果只解决一个问题,也许并不是DevOps 团队拆不拆的问题。

敏捷交付价值

敏捷也是对我影响很多的。很多人谈敏捷,我们团队里也搞敏捷,敏捷是要快速交付价值,它是一系列的方法论。但是在引入的时候千万注意,别人行的东西你不一定行,你需要的东西并不一定是敏捷,要因团队而异,形成一个环,持续反馈。

OODA环

OODA 环,就是形成闭环,让价值快速流动。

应用运维平台ATOM

应用运维平台的基础设施是一层,二层是运维中台,最上面一块是要做的 PaaS 平台,这个平台分几步。

图片描述

第一块,预算、容量、资源、弹性

这个是PaaS 平台上非常重要的一块,目的就是让资源快速流动起来,流向正确的方向来产生价值。资源如果常年不增不减,是有问题的。

第二块,应用管理

这是日常要做的操作,规模化,要快速对一个单元建站、扩容、缩容。

第三块,数据化运营

一定要讲数据,数据不是可视化出来一些报表,是要给结论,告诉用户这个数据完了以后应该是什么,规则中心是什么,是所有运维同学日常的运维经验沉淀。

批量腾挪工具

图片描述

这个工具不是所有人都需要,可以解决机房的搬迁,凑框迁移。

图片描述

单机闭环,这是腾挪工具的关键,如果企业有一定规模,这个是需要的。

图片描述

弹性伸缩工具

图片描述

弹性伸缩是我们的决策中心。它决定你的资源往哪个地方流,非常关键。

图片描述

最后,这里是运维领域技术含量最深的一个地方,要搞机器学习、深度学习、强化学习、算法等。

图片描述

弹性伸缩架构,这个平台不一定很多企业都需要,这里主要介绍在双11的时候是怎么用的。

图片描述

建一个站点起来只有5000的交易能力,可以通过10分钟时间让它具有30000万的能力,快速决策,快速调动起来。弹性里面是一个 OODA 环,拿它的数据和应用极限做比较,得出来一个策略中心。

弹性一般有水平伸缩、垂直伸缩,对线上做管理,当然我们有额度,这是比较精细化的管理。弹性有观察者模式还有自动化执行,每次弹性完以后有一个控制台,双11做全年压测的时候一般情况下不看这个。

实施效果

图片描述

原文链接

干货好文,请关注扫描以下二维码:
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为方舟编译器开源官网正式上线:源代码已开放下载;中兴通讯与北京交通大学、中国移动北京公司签署 “5G战略合作框架协议”……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 德创企“空中出租车”首次在…

使用云效在阿里云上进行一站式开发运维

摘要: 云效,一站式企业协同研发云,提供从“需求->开发->测试->发布->运维->运营”端到端的协同服务和研发工具支撑。云效将计划与其他云产品合作,进一步优化一站式体验。 导读 作为一站式企业协同研发云,云效提供…

list按照某个字段排序_恕我直言你可能真的不会java第7篇:像使用SQL一样排序集合

在开始之前,我先卖个关子提一个问题:我们现在有一个Employee员工类。 Data AllArgsConstructor public class Employee {private Integer id;private Integer age; //年龄private String gender; //性别private String firstName; private String la…

直播内容不合规怎么办?智能AI为您解决审核难题

摘要: 近些年来,视频直播快速发展,大量的直播平台如雨后春笋一般出现,但是这同样给直播内容的监管带来了巨大的挑战,一方面国家对于直播内容监管的要求日益严格,另一方面相对于文字内容的审核,多…

关闭word_Word文档如何快速查找?超实用的5个Word技巧教给你

Word,是我们每天用的最基础的一款办公软件了。大到方案的流程,小到名单输入,word都是我们最实用也最普遍的工具了。但是正是因为word这样的普遍性,所以我们有许多工作要在word上完成。......但是有时候工作量的问题却让我们加班到…

实战: 如何掌握Oracle和业务IO知识

作者 | Hardy来源 | 架构师技术联盟今天,笔者打算梳理下Oracle架构相关的知识,让读者快速全面掌握Oracle和大数据领域知识。Oracle系统结构由内存结构、物理和逻辑结构等几个部分组成。其中,与阵列密切相关的物理结构包括数据文件、控制文件、…

阿里云朱照远:AI打开新视界 8K时代已来!

摘要: 2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛、电视云论坛、短视频论坛、视频云论坛、新技术论坛、运营商论坛、国际云论坛等7大部分组成。在亚太CDN领袖峰会上,阿里视频云总经理朱照远&#xff…

星外主机销售系统源码_业务员大客户销售订货订单管理系统源码开发外包解析...

互联网IT外包15年,讲述外包那些事;让您外包项目少花钱,办好事!IT外包最大隐形成本-沟通成本:客户叙述大概需求,IT公司说一做一,最后开发项目细节大堆BUG,毫无用户体验感,最后项目一拖再拖,无限延期!究其原因,客户非IT行内人,对系统功能及流程…

两个分布的特征映射_跨语言分布表示学习方法概述

分布表示(distributed representation)与深度神经网络(deep neural network)极大地推动了近几年自然语言处理研究的发展。我们知道,分布表示指的是对于一个客观描述对象的低维、稠密、连续向量表示。不同于符号表示(symbolic representation),分布表示可…

2018亚太CDN峰会开幕,阿里云王海华解读云+端+AI的短视频最佳实践

摘要: 4月11-12日,2018亚太CDN峰会在北京隆重召开,在11日下午的短视频论坛中,阿里云高级技术专家王海华进行了《短视频最佳实践:云端AI》的主题演讲,分享了短视频的生命周期关键点和阿里云技术解决方案。 4…

数据科学家实操之路

摘要: Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查。 他们收到了将近17000份答卷,并利用这些答卷做出了大量的分析。Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查。 他们收到了将近17000份答卷&#xff0c…

快报:Java跌惨!Python背后或有推手?网友:心态已崩!

“愿你出走半生,归来仍学Python!”最近Python的slogan正在“变化”。原因是来自于PYPL官方发布2019年7月编程语言指数榜,Python连续半年夺冠,并且本月市场份额超高的28.08%。这简直是遇神杀神,遇佛杀佛的灭霸节奏&…

mybatis源码深度解析_30天消化MyBatis源码解析笔记,吊打面试官,offer接到手软

MyBatis 是一个优秀的 Java 持久化框架,SSM 框架组合(Spring SpringMVC Mybatis),依赖 MyBatis 搭建的项目更是数不胜数,在互联网公司的使用中,占据了大片江山,你在使用 MyBatis 吗?会使用你真的了解 MyB…

从司法领域看阿里云产业AI策略:生态联盟,技术赋能

摘要: 在日前结束的云栖大会深圳峰会上,除了阿里云全面进军IoT的战略宣布之外,持续不断的生态签约成了另一大亮点:全天的IoT合伙作伴签约,围绕“ET大脑”的千里马计划,以及司法领域重要IT服务商通达海的合作…

word表格怎么缩小上下间距_如何缩小word表格中的行距

自己绘制表格,然后在表格属性里可以设置www.51dongshi.com防采集。word行距缩小的方法:本次操作以Dell电脑为例,具体操作步骤如下:产品名称:Dell产品型号:Dell 灵越5000系统版本:Windows 10软件…

全球云端数据仓库领导者 MaxCompute 将于本月10日正式开服美东节点

摘要: 作为全球云端数据仓库的领导者,阿里云MaxCompute为满足更多客户的业务需求,不断加快全球化部署的节奏。本月10日,美东(弗吉尼亚)节点会正式上线。届时,将会以最新版本产品向用户提供大数据…

给面试官讲明白:一致性Hash的原理和实践

戳蓝字“CSDN云计算”关注我们哦!来源 | 靳刚同学作者 | 靳刚“一致性hash的设计初衷是解决分布式缓存问题,它不仅能起到hash作用,还可以在服务器宕机时,尽量少地迁移数据。因此被广泛用于状态服务的路由功能”01—分布式系统的路…

mysql如何逻辑删除_mysql逻辑删除如何恢复

在项目中,一般会遇到这种情况:逻辑删除以及多关联不删除逻辑删除(软删除):逻辑删除就是对要被删除的数据打上一个删除标记,通常使用一个is_deleted字段标示行记录是不是被删除(或者使用一个status字段代表所谓的“删除”状态)&…

手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

摘要: 最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch&…

再获绿色等级5A称号!揭开腾讯数据中心节能环保黑科技

9月3日北京,腾讯目前位于深圳最大的数据中心,“腾讯光明中国移动|万国数据数据中心二期”荣获运行5A绿色数据中心称号,达到了“数据中心绿色等级评估”的最高等级。该数据中心绿色分级评估由ODCC联合中国信通院、绿色网格TGGC发起&#xff0c…