极致用云,数智护航

简介:我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。 本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。

编组 5.png

我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。

本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。

混合云新一代运维

混合云新一代业务运维:数字化业务运维系统工程

image.png

在数字化转型的时代背景下,企业在未来5年内将会发生3个变化:业务规模变大、技术变复杂、组织职能变得更加标准化。

规模会越来越大,从单个业务上云到多个业务上云,云上资源从百台到千台。这些变化带来的挑战是技术风险导致的影响面扩大、范围变广、修复成本变高。如果企业核心业务的稳定性出现了波动乃至出现故障,轻则影响体验、口碑并带来客户投入,重则导致巨大经济损失,甚至威胁企业的生存。

企业的技术栈越来越复杂,从单云到多云,从专有云到混合云;从传统开发到使用新技术开;企业IT系统的基础架构也是多云环境、多技术栈并存;不同企业的数据的分析、治理、存储和展现能力也存在差异。这些复杂性带来的挑战是:故障多、定位难、稳定性不可控。已知故障报警量多、未知故障潜伏期长,定界定位慢、响应慢、恢复慢,故障无法根除。而故障的重复发生会进一步导致影响时间、范围和发生频率不可控。

企业组织架构越来越标准化,组织分工标准化,即职责权定义清晰;人员能力标准化,即专业运维知识能力、操作能力、决策能力;协同标准化,即上下级、同级、内外协作标准化;决策架构标准化,即决策架构变化不会的导致技术运维能力的变化。对于刚进入数字化企业来说,组织完全没有达到这个标准能力,带来的挑战就是:协同难,扯皮多、定责难;山头文化,跨组织跨团队协作难;出问题,找不到责任人;责任不清,问题无人解决。

面向这些变化与挑战,在未来5年里,企业云上业务的“可靠性”和“连续性”成为企业发展决定性因素。为了助力企业上云、用云过程中应对这些变化和挑战,阿里云混合云平台推出了混合云新一代运维标准:数字化业务运维系统工程,即“全栈统一运维”、“全景可观测”、“全周期安全工程” 三大能力,系统性保障数字化业务安全可靠。

混合云一体化安全生产(安全工程)解决方案

image.png

我们的解决方案涵盖了从监控和预警,到应急处理,到日常持续改进的全过程闭环。即产品能力和服务能力从防、监、管、控四个方面进行构建,全方位保障数字化业务的连续性和可靠性。

  • 防-全周期安全工程, 识别故障风险, 构建故障主动防御体系;

从代码源头开始,严控代码质量和上线标准,通过主动防御型策略、专家知识库、智能风险检测、恶意识别、风险审计、高危拦截、集中统一管控、高可用架构等构建主动且完备的事前防护体系,将业务故障拦于门外。

  • 监-全景可观测能力, 建立从业务-应用-云资源全链路监控的能力,发现并定界异常,秒级预警;

我们的产品提供全景监控(业务/应用/云平台)能力。全面支持混合云形态下的客户侧监控需求;提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维平台触发故障自愈和应用弹性扩/缩容。

  • 管-全栈统一运维, 构建数字化统一业务治理能力;

面向双态的业务应用运维,提供业务中台运维、资源调度、作业支撑、集中集成能力,解决企业运维看、管、控的需求,并实现日常运维数字化、智能化。我们利用应用生命周期中产生的海量数据(系统,监控,日志,调用链路等数据),通过平台大数据分析以及机器学习,主动探测发现系统存在的风险,并且提供自动快速应对能力。可以大幅提升企业整体运维效率。

  • 控-全周期安全工程,快速解决问题,及时应急恢复止损。产品化支持故障复盘与改进计划落地,加固事前主动防御和能力验证;

通过应急控制能力,快速解决问题,及时应急恢复止损,控制故障影响面。并对原因复查改进,加固事前主动防御,并常态进行常态化有效性验证(演练、压力测试),从而形成不断迭代,持续提升的安全生产能力。

数字化智能监控运维安全产品功能矩阵

image.png

如图所示,安全生产解决方案需要非常多的产品能力支持,图上显示了支持解决方案背后的产品能力。这是若干年来支持阿里巴巴双十一的产品能力,也经历了多年双十一和日志技术风险战火的洗礼,目前也从属于阿里云云效监控运维领域的产品序列,提供给各位企业客户使用。

云效监控运维域产品能力升级

持续可观测系统化:Sunfire2.0智能全景监控平台

image.png

监控是系统的眼睛,我们通过眼睛看到问题才能做定界和处理。我们监控平台的设计理念是智能化全景监控平台,是围绕阿里巴巴平台技术风险体系中的1-5-10理念来设计的。我们通过业务监控发现问题并触发应急响应,这和传统运维理念中对系统资源的监控是有差异的。阿里集团的应急响应不会是因为某一个CPU温度过高、某一个磁盘使用率过高或者IO过高导致的系统级指标告警引起的。阿里集团有千万级别的线上容器和主机,也有千万级别的监控项和报警。阿里集团监控是以业务监控触发为核心,即业务监控触发报警以后,需要有高效的事件处理中心产品能力,把系统级指标报警、应用级报警和业务级报警有机关联归集起来,把业务报警进行判定和升级送入我们的故障台,故障台向集团发应急通告,整个闭环是从发现到处理到故障升级。发生故障之后,我们可以马上进行问题的定界并恢复,全景监控可以把问题锁定到某一个环节执行预案,再通过运维平台发起预案执行让系统恢复稳定,这个故障就被消灭在萌芽阶段了。

业务监控能力升级

image.png

在业务指标监控领域,我们有一个超级武器,秒级监控。做过监控的同学都有体感,监控系统的数据迟延在秒级粒度时,监控曲线往往会有很多抖动。因此,秒级监控必须有智能化的监控策略作为辅助,否则会造成大量误报。把之前的智能基线能力全新升级为黄金指标异常检测能力后,系统会帮我们简便的自动化配出黄金指标,能监控业务的量、率和耗时以及相应的组合策略,不需要配置人工预制,通过机器学习的算法就能自动化通过监控发现业务问题。

今年的阿里巴巴双十一预售已经开始,消费者的热情高涨,特别是薇娅和李佳琪两个大V做的直播给我们的系统带来了很大的流量冲击,淘宝的核心业务指标也确实出现了一个微小的波动。我们的秒级监控和智能报警的策略耗时47秒,从事情的发生到最后全局预警通告只花了47秒,触发了我们系统的快恢,这个故障还没有到故障级别就被消灭在无形之中,以至于很多消费者都来不及感知。

我们的监控能力会尽可能先于用户发现业务的问题。我们在业务链路的描述上和在大屏的展示上都有全新的能力升级,这背后是自研的大规模、分布式监控实施的引擎和智能化工程策略框架的支持。

应用和云资源监控能力升级

image.png

业务监控发现问题后做定界,这时就要看运行业务的应用和云资源的状态。我们全新升级应用的发现能力、应用链追踪的能力和云资源监控能力后可以监控客户应用、从业务指标到业务状态、云资源的状态,应用调用其他应用、其他中间件的状态、分析链路、智能化发现应用、第三方组件云资源的关联。

在云原生的理念下,企业采用K8S作为自己PAAS层的运维方式,能够被开源的Prometheus监控的对象可以直接被Sunfire平台监控并享受到Sunfire智能化的策略和强大的监控计算及存储能力。

报告(事件)和故障管理能力升级

image.png

发现问题后需要高效处理,而高效的应急处理需要事件中心和故障台一起联动,让事件有效被管理降低误报减少时间损耗,也可以通过故障台进行高效的应急和响应。经过故障台管理后,很多故障处理过程从开始的零乱不堪到最后整齐高效处理,处理过程由不见变成可观察可度量。

云效监控运维域产品能力升级

100%IT运维数字化:Normandy智能运维平台产品架构

image.png

上图是Normandy平台的全新升级,面向混合云客户做到支持跨云管理的先进架构,自动化运维发布、自动化管理、扩缩容能力,也支持了阿里双十一海量应用运维的挑战。

智能化运维能力升级

image.png

运维平台在智能化层面做了三大升级:一是弹性扩缩容能力。应用级智能的弹性扩缩容,根据应用程序的状态指导扩缩容是运维过程中最优的选择,我们Normandy平台就能提供这样的能力。针对发布过程中的风险,我们提出无人值守发布的理念,在发布过程中监控发现潜在问题。我们在灰度发布进行到很小范围的时候就可以发现问题,进行拦截避免问题扩大化。真正出现问题的时候平台可以执行原子的自愈能力和开放的能力扩展,做到跟客户的场景相结合,完成客户场景下的快恢操作。

运营指挥大屏

image.png

有时需要对于业务和应用做全局态势的感知,我们有运行指挥大屏的能力,对运行系统的数据、工单数据和报警数据做展现,结合客户场梳理到全局态势的感知。在大型活动保障时做运营指挥参谋,这跟阿里巴巴双十一指挥大屏的理念是一致的。

数字化业务安全工程平台—护城河

image.png

大家会在新闻中看到,“删库跑路”这类新闻。说明我们的在运维安全层面面临了很大的风险,安全工程平台支持多云平台下运维操作集中管控和安全审计、风险的控制。我们称其为“护城河”,它是我们的核心能力,可以集中管控运维的管理和通路并且符合国家安全等保的标准。

白屏/黑屏化安全防护能力

image.png

  • 我们护城河体系可以同时支持白屏化和黑屏化场景,进行安全防护。无论是资源管理授权统一管控、基于多终端运维方式,还是对于多协议运维扶持下保证客户完成安全防护。我们支持在指定的窗口下进行身份认证规避风险。
  • 阿里巴巴集团有数万名技术员工通过操作我们的线上系统,护城河体系完成了整个的风险管控,也为阿里技术体系解决了运维操作的风险控制问题。现在,我们也把它放到云效监控运维的产品体系中提供给企业客户使用。
  • 我们安全审计的能是符合国家等保要求的。通过对过程统一管控记录运维操作的情况发现里面的风险隐患。护城河平台基于智能化的能力做到了基于动态智能化发现潜在风险能力。

案例分享

Sunfire在能源行业的案例

image.png

上图是和我们和国家电网做的战略合作。国家电网的营销系统1.0的传统架构迁移到2.0面向混合云的架构,大家在日常生活中交电费、查电费、充值电费等都可以通过小程序在云端运行了。国网营销2.0系统在云上是由全景监控平台Sunfire对数百个应用、数千个业务指标进行全面的监控。国网营销2.0系统的报警处理机制以业务监控为入口,快速定界和处理的模式。这种模式使日常的报警量变少了,比如几个月前出现了线上的风险,我们高效的发现触发应急解决问题,国网领导也给我们平台发了感谢信,是对我们很好的肯定和支持。

运营指挥中心在证券行业案例

image.png

上图是我们跟证券的头部企业进行合作的应用指挥的案例。这完成了证券指挥大屏在运行企业的落地。在大屏上有证券企业的核心业务流程,从整体的业务看到了应用和资源,线上交易出现问题可以通过多维下算的方式找到问题出现的细分业务领域,能看到运营的状态和云资源利用的状态。

我和客户共建大屏时,首先对客户侧所有的场景进行梳理抽象出业务场景分发到大屏、中屏上,让客户进行不同的问题定位,设计成千上万的业务指标汇聚在运营大屏上,背后是根据客户异构的数据源,不同实效性的数据做自动归置和对齐,这种高效实时的处理机制是我们在证券行业非常好的落地。

本次内容就到这里,我们也希望在我们的新一代运维安全工程标准指引下,我们的安全生产解决方案和产品能力能够支持和服务更多的企业客户,一起让企业的云上业务运维更加高效、更加可靠、更加稳定!

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Lakehouse 架构解析与云上实践

简介:本文整理自 DataFunCon 2021大会上,阿里云数据湖构建云产品研发陈鑫伟的分享,主要介绍了 Lakehouse 的架构解析与云上实践。 作者简介:陈鑫伟(花名熙康),阿里云开源大数据-数据湖构建云产品…

菜鸟教程 mysql like_MySQL LIKE 子句

MySQL LIKE 子句我们知道在 MySQL 中使用 SQL SELECT 命令来读取数据,同时我们可以在 SELECT 语句中使用 WHERE 子句来获取指定的记录。WHERE 子句中可以使用等号 来设定获取数据的条件,如 "runoob_author RUNOOB.COM"。但是有时候我们需要获…

云原生 Serverless Database 使用体验

简介:表格存储 Tablestore 作为一款广泛应用 Serverless DataBase,能够提供经济的计费模式,可以大幅缩减业务成本的同时, 具备极致的弹性服务能力和完全零运维的特性,能够给用户带来更丝滑的使用体验。 作者 | 李欣 …

首推业人一体,北森2022春季发布会,正式发布iTalentX5.0

5月19日,中国最大的一体化HR SaaS及人才管理平台北森于线上召开“HR x业务”2022春季新品发布会,基于“业务人力一体化”理念发布iTalentX5.0,以战略和业务为牵引,用数字化平台赋能经理、员工和HRBP, 实现人力资源与业…

【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从

简介:Hadoop社区版CDH/HDP已经不再更新,也将终止服务。后续的平台路线图怎么规划?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增强?如何平滑的进行迁移?本文结合CDH/HDP平台现状,详细介绍…

mysql表全连接_关于mysql 实现表连接(左,右,内,全连接)

mysql 实现表连接(左,右,内,全连接)查询中出现两个表的连接,下面通过实例来讲解一下各种连接查询的不同之处表 a,和表b 如下图a 表中 有 abcdb表中有 abcf内连接:SELECT * from a INNER JOIN b on a.nameb.…

阿里云 Serverless Kubernetes 的落地实践分享

简介:Serverless Kubernetes 基于 Kubernetes 之上,提供按需使用、节点免运维的 Serverless 能力,让开发者真正实现通过 Kubernetes 标准化 API 进行 Serverless 应用编程,值得关注。 作者 | 元毅(阿里云容器平台高级开…

DevLake 加入 Apache 孵化器,开源共建 Apache 生态首个研发大数据平台

4 月 29 日,开源研发数据平台 DevLake 通过投票决议,正式成为 Apache 软件基金会 (ASF) 的孵化项目。 进入孵化后,Apache DevLake 将遵循 The Apache Way[1],在导师们的引导下,坚持以人为本、社区高于代码的理念&#…

idea连接mysql注册登录_IDEA+MySQL实现登录注册的注册验证时出现 Cannot resolve query parameter '2'...

问题描述:在ideamysqltomcat 实现登录注册jsp的注册信息insert验证时出现 cannot resolve query parameter 2贴上创建链接的代码:if(conn ! null){string sql "select *from login_info where dbuser?";pstm conn.preparestatement(sql);ps…

如何画一张架构图(内含知识图谱)

简介:架构图是什么?为什么要画架构图?如何画好架构图?有哪些方法?本文从架构的定义说起,分享了阿里文娱高级技术专家箫逸关于画架构图多年的经验总结,并对抽象这一概念进行了深入地讨论。内容较…

软件分析与设计:分析什么?如何设计?

简介:分析与设计这两个词我们平时经常听到,也经常讲,那么分析与设计的本质究竟是什么呢?到底要分析什么?又到底要怎样去设计?这3个问题如果平时没有一些积累,突然被问到这些,一时也会…

协程到底有什么用?6种I/O模式告诉你!

作者 | 陆小风来源 | 码农的荒岛求生今天来聊一聊协程的作用。假设磁盘上有10个文件,你需要读取的内存,那么你该怎么用代码实现呢?在接着往下看之前,先自己想一想这个问题,看看自己能想出几种方法,各自有什…

阿里云数据治理系列(一):治理项目启动前的必答三问

简介:近一年以来,越来越多的企业在考虑或正在启动数据治理的项目。作为在该领域从业多年的人士,也常会被咨询:数据治理不是很多年前就有的概念么?为什么忽然很多企业都在提及?是不是新瓶装旧酒?…

揭晓远程证明架构EAA:机密容器安全部署的最后一环 | 龙蜥技术

简介:如果需要在云上 HW-TEE 环境里启动一个加密容器,如何在启动过程中获取容器的解密密钥? 文 / 周亮, 云原生机密计算 SIG 核心成员。 在云原生场景下,基于HW-TEE(如Intel SGX, Intel TDX 和 AMD SEV&am…

java哪个城市的需求量大_4大互联网热门城市Java薪资情况,看完你想去哪个城市发展呢?...

程序员作为薪资最高的行业之一,一直是很多人转行的热门首选行业。Java程序员又在所有程序员中占比最大, 因此,Java程序员的薪资就能够很好的代表行业的薪资水准。今天就为大家整理一下4大热门城市的Java薪资情况,看看你还差多少&a…

Gartner:上云步伐加速,中国公有云部署最佳实践

作者 | Gartner高级研究总监 周玲 供稿 | Gartner 在数字化转型需求的驱动下,中国的上云步伐持续加速。Gartner预测,到2024年,中国40%的IT基础设施支出将用于云服务(参见图1)。 图1:中国云基础设施和平台服…

kubernetes pv-controller 解析

简介:pv controller是 kcm 的组件之一,它负责处理集群中的pvc/pv对象,对pvc/pv 对象进行状态转换。本文将基于 kubernetes 1.23进行解析。 作者 | 牧琦 来源 | 阿里技术公众号 基于 kubernetes 1.23 一 简介 pv controller是 kcm 的组件之…

Apsara Stack 技术百科 | 标准化的云时代:一云多芯

简介:随着今年云栖大会现场平头哥的自研云芯片倚天710发布,以及众多新兴厂商的芯片发布,将有越来越多的类型芯片进入到主流市场,“多芯”的架构将在数据中心中越来越常见,阿里云混合云在安全和稳定的基础上&#xff0c…

用户态 tcpdump 如何实现抓到内核网络包的?

作者 | 张彦飞allen来源 | 开发内功修炼今天聊聊大家工作中经常用到的 tcpdump。在网络包的发送和接收过程中,绝大部分的工作都是在内核态完成的。那么问题来了,我们常用的运行在用户态的程序 tcpdump 是那如何实现抓到内核态的包的呢?有的同…

技术实践第三期|HashTag在Redis集群环境下的使用

简介:欢迎了解友盟技术干货第三期内容:Redis集群环境如何按照前缀批量删除缓存。希望能对开发者们在实际应用中有所帮助。 一、背景 数据源列表添加缓存支持,types字段可传多值,如app, mini, web等,会构建如下缓存ke…