阿里巴巴云原生大数据运维平台 SREWorks 正式开源

简介:阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维。

作者 | 晟白
来源 | 阿里技术公众号

随着行业不断发展,大数据&AI也逐渐呈现云原生化的趋势。复杂的业务场景及其背后涉及到的不同技术方向的开源和自研,使得产品运维面临技术复杂度高、规模大、场景多等挑战。

阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维。

一 SREWorks 是什么?

谷歌在2003年提出了一种岗位叫做 SRE (Site Reliability Engineer,站点可靠性工程师),它是软件工程师和系统管理员的结合,重视运维人员的开发能力,要求运维日常琐事在50%以内,另外50%精力开发自动化工具减少人力需求。

SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

阿里云大数据 SRE 团队天然靠近大数据和AI,对大数据&AI技术非常熟悉,且具有随取随用的大数据&AI算力资源,一直努力践行“数据化”、“智能化”的运维理念,行业里的 DataOps(数据化运维)最早由该团队提出。SREWorks 中有一套端到端的 DataOps 闭环工程化实践,包括标准的运维数仓、数据运维平台、运营中心等。

随着云原生时代大趋势的到来,阿里云大数据 SRE 团队将SREWorks运维平台开源,希望为运维工程师们提供开箱即用的运维平台。

二 SREWorks 有什么优势?

回归到运维领域的需求,无论上层产品和业务形态怎么变化,运维本质上解决的还是“质量、成本、效率、安全”相关需求。SREWorks 用一个运维 SaaS 应用界面来支撑上述需求,同时以“数智”思想为内核驱动 SaaS 能力,具体包括交付、监测、管理、控制、运营、服务六部分。

1 体系化运维平台分层架构

从“质量、成本、效率、安全”四个维度出发看运维本质相关工作,运维除了要搭平台、建规范、做标准,还要用自动理念提升效率,用数据驱动测试/开发/运维,用智能手段提前发现/预测风险问题等。这些可以看成是方法论。如何能从理论快速获得一套体系化、工程化、产品化的能力实践,去支撑满足上述四个维度的需求,就是 SREWorks 所考虑的问题。

阿里云大数据 SRE 团队利用分层思想构筑了 SREWorks 平台产品体系,借鉴经典 SPI(SaaS/PaaS/IaaS)三层划分思路,SREWorks 由“运维 SaaS 应用场景层、运维 PaaS 中台服务层、运维 IaaS 接入层”三部分构成。

SREWorks 中还融入了运维规范、标准化思想,利用产品承载自动化流程、数据驱动、智能内核的方法论。从代码到线上业务服务的整个过程,运维或多或少地参与了其中一些工作,因此,围绕应用的生命周期,在SaaS场景层划分了“交付、监测、管理、控制、运营、服务”六大区。如下图所示,每块内容里都有代表性的核心功能。

SREWorks 中统一以应用抽象来描述业务系统,在开发人员将研发完成的应用制品交付上线后,就会对线上应用实例生命周期进行监测、管理、控制。SREWorks所拥有的运维数据能力会提供增值化的运营、服务,为有需要的人员提供便捷的视图、管理能力等。

“交付、监测、管理、控制、运营、服务”六大场景在SREWorks产品手册中有详细的定义及边界说明。

2 完整的数据化运维体系实践

一套数据化运维体系,会把所有系统的运维数据全部采集起来、真正打通,并深度挖掘这些数据的价值,为运维提供数据决策;同时构建数据化运维业务模型,基于该模型建立标准化运维数仓,建设数据运维平台,在平台中规范运维数据的采集、存储、计算及分析,并提供一系列数据化服务,供上层运维场景使用。

有了运维相关的量化数据,对运维工作的描述和衡量将更加立体化,可以建立长期可持续优化的运维工作模式,实现真正的运维价值。

3 服务化的 AIOps 智能运维平台

在阿里云大数据 SRE 团队看来, AIOps 的出现并没有改变运维的表现形式,依旧还是“交付、监测、管理、控制、运营、服务”的界面,只是在大量运维数据化工作的基础之上,利用AI能力探索、挖掘智能化运维场景。因此,在一开始构筑 AIOps 工程实践时,就坚持打造“感知、决策、执行”的闭环,类似自动驾驶的理念。

SREWorks将量身定制的算法与运维场景化结合,能够提前预测、关联分析,增强风险预防、故障定界定位能力,实现传统手段无法获得的运维价值。具体而言,将每一个智能化的运维服务包装成感知的“监测器”、决策的“分析器”、执行的“策略器”,供健康管理、变更管理等系列服务调用,即可增强已有运维场景,解决一些普通手段无法解决的问题。

4 运维中台化、低代码化及云原生化运维开发体验

SREWorks 套件自身也是云原生化的应用,并且采用运维中台思想构建,在中台里构建大量的PaaS 化运维服务能力,在前台围绕“交、监、管、控、营、服”六大场景提供SaaS 化运维场景应用。

大部分页面为企业后端控制台类系统,不太需要很酷炫的交互设计,故而,运维开发领域的前端开发始终难于追赶前端流行趋势。针对这些特点,SREWorks 创新性地设计了一套 Serverless 体验的前端开发模式。

三 为什么要开源?

阿里云大数据 SRE 团队之前在多次技术分享时重点介绍过“DataOps、AIOps”的能力,但都是纯理论层面的介绍。具体在 SRE 领域,到底在工程实践上实现这一套理论?对运维的需求、界面、内核这三层的理解如何落地?

为了把数据化、智能化这套数智内核故事讲明白,阿里云大数据 SRE 团队将具有低门槛、高效率特点的云原生运维平台SREWorks开源出来。

他们坚定地认为,运维团队更需要拥抱云原生,只有这样,运维才能在云原生浪潮下找到一席之地。

该团队也希望, SREWorks 的开源,能让更多从业者使用“大数据和AI”的能力做好运维,实现“数据+智能”的运维平台内核。

据介绍,SREWorks背靠阿里云计算平台系列“大数据&AI”产品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,开源版中同样选取了这些产品对应的开源版本,比如开源版 Flink、Elasticsearch 等。

四 后续规划

SREWorks平台目前每个月会进行一次迭代开发任务,后续将由版本管理员统一维护合入相关功能及问题修复等内容,以保证最新的云原生化运维能力持续进入后期版本中。

当前, SREWorks 中有一套 OAM(Open Application Model)规范的工程化实践,可以把该实践看成是 SREWorks 的核心引擎。围绕该引擎,SREWorks团队建设了系列运维中台服务,包含自动化、数据化、智能化能力,之后也将跟随社区 OAM 规范的发展,持续迭代。

五 写在最后

今天 SREWorks 的开源只是迈出的一小步,非常期待得到开发者的反馈。SREWorks中也设计了插件化扩展能力,欢迎使用 SREWorks 来打造属于自己的运维平台。

最后,如果您对 SRE、DataOps、AIOps 或云原生等领域有兴趣,都可以参与到我们的建设中来,这将是我们莫大的荣幸,一起交流,一起打造最具特色的 SRE 云原生运维平台!

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css小技巧

当文字超出时用胜率号代替 <p>这是一段超出内容的话&#xff0c;必须要超出才会出现省略号</p> p{width: 200px;height: 20px;line-height: 20px;overflow: hidden;white-space: nowrap;text-overflow: ellipsis; }让文字的颜色为渐变 <p>我需要成为渐变色…

阿里云 VPC 内网性能测试最佳实践

简介&#xff1a;本文介绍了在阿里云 VPC 内网执行性能测试的方法。相较于传统的公网性能测试&#xff0c;VPC 内网性能测试完全在客户 VPC 环境进行&#xff0c;无需暴露服务到公网&#xff0c;安全性更高&#xff0c;灵活性更强。 作者:风起 背景 随着互联网的快速发展&am…

​在可视化大屏中轻松完成机器学习建模和调参应用实例

Streamlit 是一个开源 Python 库&#xff0c;可帮助开发人员为其系统创建交互式图形用户界面。它专为机器学习和数据科学家团队设计。使用 Streamlit&#xff0c;我们可以快速创建交互式 Web 应用程序并进行部署。前端工作对数据科学家来说并不重要&#xff0c;他们只想要一个小…

router的使用

路由和线路 路由router 表示当前项目全局的路由实例对象 跳转方法&#xff1a;push&#xff0c;replace&#xff0c;go&#xff0c;back 线路route 表示当前路由页面的信息对象 获取动态路由的参数&#xff1a;params router跳转的两种方式 js跳转叫[编程式跳转] <butto…

EventBridge 事件总线及 EDA 架构解析

简介&#xff1a;EventBridge 是事件驱动的具体落地产品&#xff0c;也是 EDA 的最佳实践方式。 作者&#xff1a;肯梦 作为 Gartner 定义的 10 大战略技术趋势之一&#xff0c;事件驱动架构&#xff08;EDA&#xff09;逐渐成为主流技术架构。根据 Gartner 的预估&#xff0…

开发者驱动的软件公司,如何赚取万亿美元?

【CSDN 编者按】在过去二十年中&#xff0c;诞生了两个价值数万亿美元的企业软件行业&#xff1a;SaaS&#xff08;Software as a Service&#xff0c;软件即服务&#xff09;软件和公有云。如今&#xff0c;第三个以开发者为核心的万亿美元软件浪潮正在来袭&#xff0c;企业该…

解决vue路由守卫报错信息

//在router文件中写入&#xff0c;修改报错信息 const originalPush VueRouter.prototype.push VueRouter.prototype.push function push(location, onResolve, onReject) {if (onResolve || onReject) {return originalPush.call(this, location, onResolve, onReject)}retu…

好云推荐官丨飞天加速之星怎样选择云服务器ECS?

编者按&#xff1a;本文来自“好云推荐官”活动的技术博主投稿&#xff0c;作者&#xff08;昵称天狼&#xff09;曾入选首届“飞天加速之星”&#xff0c;获得飞天人气奖。 ​你是否还在苦苦地寻找一家合适的云厂商&#xff0c;寻找合适的服务器来部署你开发的网站、程序&…

2022钉钉发布会|云钉低代码新模式、新能力、新机遇

简介&#xff1a;宜搭重磅发布酷应用工厂、连接器、AIFaaS扩展等新功能&#xff01; 3月22日&#xff0c;以“科技向实&#xff0c;万物生长”为主题的2022钉钉发布会在杭州举行。 阿里巴巴资深技术专家&#xff0c;钉钉宜搭创始人叶周全出席发布会&#xff0c;并在 “人人都…

最佳实践|Spring Boot 应用如何快速接入 Prometheus 监控

简介&#xff1a;SpringBoot 微服务的开发、发布与部署只占其生命周期的一小部分&#xff0c;应用和系统运维才是重中之重。而运维过程中&#xff0c;监控工作更是占据重要位置。那么&#xff0c;为了对系统的状态进行持续地观测&#xff0c;面向Spring Boot应用我们该如何快速…

vue知识总结

vue 定义 以数据驱动视图的渐进式&#xff08;轻量级&#xff09;mvvm框架 响应式原理&#xff1a;Object.defineProperty 指令 html&#xff0c;text&#xff0c;show&#xff0c;if&#xff0c;for&#xff0c;model&#xff0c;slot&#xff0c;once&#xff0c;bind&am…

容器进程调度时是该优先考虑CPU资源还是内存资源?

大家好&#xff0c;我是飞哥&#xff01;前几天看到一个有意思的问题&#xff0c;我前几天在朋友圈分享了&#xff0c;今天再在公众号里给大家发一下。问题是这样的&#xff1a;有 A B 两台服务器&#xff0c;其中 A 服务器 cpu 快满了&#xff0c;内存很空闲。另外一台 B 服务…

基于容器服务 ACK 发行版打造 CNStack 社区版

简介&#xff1a;本文将介绍如何使用 ACK Distro 作为基础镜像打造 CNStack 社区版以及CNStack 社区版中的容器服务 ACK 敏捷版产品如何帮助用户更好的使用容器平台能力。 作者&#xff1a;临石 CNStack 社区版&#xff08;CNStack Community Edition, CNStack CE&#xff09…

阿里云云原生微服务可观测实践

简介&#xff1a;如果说监控可以告诉我们系统出问题了&#xff0c;那么可观测就可以告诉我们系统哪里出问题了&#xff0c;什么原因导致的问题。可观测不但可以判断系统是否正常&#xff0c;还可以在系统出现问题之前&#xff0c;主动发现系统风险。 作者&#xff1a;十眠、水…

“合”而不同,持“智”以恒,幂律智能2022产品升级发布会全程回顾!

今天&#xff0c;“合”而不同&#xff0c;持“智”以恒&#xff0c;幂律智能2022产品升级发布会正式和大家见面。 发布会共分为「嘉宾致辞」、「产品分享」、「客户实例」等部分&#xff0c;多位行业专家、学者大咖等纷纷发来视频&#xff0c;表达对幂律本次活动的祝愿。 清华…

call() , apply() ,bind()的用法

call() , apply() ,bind()的用法 - 作用&#xff1a;改变this指向&#xff0c;可以传递参数 - 语法&#xff1a; A.call(B, 参数1, 参数2)A.apply(B, [ 参数1, 参数2])A.bind(B, 参数1, 参数2)()var name "小王", age 17var obj {name: 小张,age: this.age,myAg…

数智科技护航微出行

锂电池智能化“改为”刀锋智锂、爱龙电气架构、麒麟数智安全管理平台&#xff0c;让数智科技&#xff0c;为电动自行车安全出行套上“紧箍圈”。 电动自行车安全隐患 电动自行车价格便宜、使用方便&#xff0c;已经成为人们日常短途出行的重要交通工具。相关数据显示&#xf…

EMR StarRocks 极速数据湖分析原理解析

简介&#xff1a;数据湖概念日益火热&#xff0c;本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。 【首月99元】EMR StarRocks 数据湖极速分析体验&#xff0c;试用火热进行中&#xff0c;快来申请吧 -…

图解 React 的 diff 算法:核心就两个字 —— 复用

React 是基于 vdom 的前端框架&#xff0c;组件 render 产生 vdom&#xff0c;然后渲染器把 vdom 渲染出来。state 更新的时候&#xff0c;组件会重新 render&#xff0c;产生新的 vdom&#xff0c;在浏览器平台下&#xff0c;为了减少 dom 的创建&#xff0c;React 会对两次的…

实用js片段

字符串排序 const arr[{name:ccc},{name:bbb},{name:ccc}] arr.sort((a,b)>a.name.localeCompare(b.name))从数组中过滤出虚假值 const arr[1,2,,undefined] const arr1 arr.filter(v>v) //[1,2]删除重复值 const arr[1,2,1,3] const arr1 [...new Set(arr)] //[…