企业为什么要做应用多活?

简介:无容灾不上云,应用系统要随时具备对灾难故障的逃逸能力。平稳迁移上云是每位决策者的关键决策点。业务持续发展,架构不断演进,容灾治理解决的是发展中问题。如何实现应用多活的容灾架构和组织协同,也越来越成为更多企业者关心的问题。

容灾成为企业上云和用云的基础要求

2019 年 IDC 发布的《全球云计算 IT 基础设施市场预测报告》显示:2019 年全球云上的IT基础设施占比超过传统数据中心。越来越多企业因为云计算低成本、稳定性而选择在云端构建系统,云已经变成了一个主流 IT 基础设施。近年来,开源技术和云技术保持高速发展,出现种类繁多的产品和服务,技术人员决策权变大,架构更迭速度日益加快。在高速演进的过程中,要谨防人为的不合理故障,同时也要关注自然灾害的影响。一次不恰当业务中断,可能带来严重的品牌、客户、经济损失。

所有的上云企业都把容灾系统能力建设作为最基础目标来要求,并保证投入。只有确保灾难发生时,关键数据不丢失,系统服务尽快恢复运行,企业才能保证长久、平稳的高速发展。

常见的灾难故障

在企业生产实践中,不免会发生大大小小的故障,影响系统的稳定性。有些故障在发生后快速恢复,外部用户无感,有些故障长时间无法恢复,造成外部舆情、资金损失等问题,甚至可能导致公司破产,故障一般有如下几类:

  • 人为操作失误,比如常见的有配置错误、应用发布失败等等;
  • 硬件故障,比如常见的就是网络设备出故障,导致机房或者集群内多台服务器受影响等;
  • 网络攻击,比如 DDoS 等网络攻击等;
  • 断网/断电,比如光缆被挖断等;
  • 自然灾害,比如雷击导致机房电力故障等。

在这些灾难下,常常面临着公网、接入网关、机房等设施中断,会造成流量下跌、网站打不开、故障报警等业务问题,对于企业而言,需要面临着“业务恢复”和“故障恢复”两大难题,最好的方式是将这两类问题进行解耦,在发生故障时,快速切流,优先恢复业务。在业务恢复的前提下,进行故障定位修复。

故障逃逸能力的成长

业界常见的故障定位与恢复涵盖 4 个步骤:发现问题-定位问题-修复问题-业务恢复。明显无法满足“业务恢复”和“故障恢复”解耦处理的需求。更好的应对方式是将这 4 个故障处理步骤升级成"发现问题-切流-业务恢复"的 3 个故障处理步骤,通过“切流”保证业务的快速恢复,将业务恢复的时间从“数十分钟甚至数小时不等”缩短到“分钟级甚至秒级”,提高业务的容灾能力。

为了保证快速切流的实现和在真实场景中“有效”的切流,我们需要建设更高阶的容灾架构技术,还需要增强“基础设施”、“业务系统”、“保障工具”、“生产制度”、“应急人员”的协同。通过架构与组织的协同,实现容灾多活的能力保鲜。

这种能力,不是即刻就可以突破的,是需要不停的优化架构与组织协同,才能促使业务的容灾多活能力螺旋式的上升。

突破地域限制

企业在起步阶段一般选择单地域部署,但随着业务的规模发展,单地域机房将无法满足业务需要。与此同时,单地域的集群化组件随着连接数的爆炸性增长,单集群的容量已无法继续扩展,亟须进行集群的拆分。

但是在做支持跨地域的集群拆分时,需要满足“路由一致性”、“数据一致性”的原则,从而让业务能够突破地域限制,做到跨地域的容量水平扩展,灵活调度流量,从而解决单地域下的容量挑战问题,比如:

  1. 机器容量。多个异地机房对等部署,企业应用可在多地多机房灵活部署业务应用。
  2. 连接容量。机房内集群化组件独立,各自机房连接自有组件,避免连接数无限增长的问题。

灾备容灾的局限性

灾备容灾建立在数据级容灾的基础之上,常用的实现方式是在备份机房构建一套相同的应用系统,灾难发生时会在约定的时间范围(RTO)内恢复运行,尽可能减少灾难带来的损失。在实际实施时,存在以下几个问题:

  1. 灾备中心平时不提供服务,在切换到灾备中心的关键时刻时无法确定是否可以成功切换。
  2. 灾备中心平时不提供服务,整个灾备资源会处于闲置状态,成本浪费比较高。
  3. 灾备中心平时不提供服务,所以平时提供服务的机房还停留在单地域,当业务体量大到一定程度时,这种模式无法解决单地域资源瓶颈的问题。

应用多活的概念

“应用多活”是“应用容灾”技术的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到故障发生。

常见的应用多活架构分为同城多活、异地多活、混合云多活,和传统容灾相比,应用多活具备以下 4 个优势:

  • 分钟级 RTO。 恢复时间快,阿里内部生产级别恢复时间平均在 30s 以内,外部客户生产系统恢复时间平均在 1 分钟。
  • 资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,避免资源浪费。
  • 切换成功率高。依托于成熟的多活技术架构和可视化运维平台,相较于现有容灾架构,切换成功率高,阿里内部年切流数千次的成功率高达 99.9% 以上。  
  • 流量精准控制。应用多活支持流量自顶到底封闭,依托精准引流能力将特定业务流量打入对应机房,企业可基于此优势能力孵化全域灰度、重点流量保障等特性。

到 2025 年,有超过 50% 企业会使用分布式云。公共云服务能力将延伸到边缘计算和 IDC,一朵分布式云实现全场景覆盖。跨云、跨平台、跨地理位置的应用多活场景和技术将开始浮现。无容灾不上云,应用系统要随时具备对灾难故障的逃逸能力。平稳迁移上云是每位决策者的关键决策点。业务持续发展,架构不断演进,容灾治理解决的是发展中问题。如何实现应用多活的容灾架构和组织协同,也越来越成为更多企业者关心的问题。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为Mate是鸿蒙系统,华为mate30概念新机:4500mAh+5G网络+“鸿蒙”系统 这才是华为...

对于现在的华为手机来说,很多消费者的态度不一样,有的觉得华为手机性价比不高,有的则觉得华为手机质量很好,配置也非常的高。而我觉得,华为手机最值得敬佩,敬佩的是华为不屈的精神,敬佩的是远见…

平安保险基于 SPI 机制的 RocketMQ 定制化应用

简介:本文讲讲述平安保险为何选择 RocketMQ,以及在确定使用消息中间件后,又是如何去选择哪款消息中间件的。 作者:孙园园|平安人寿资深开发 为什么选用 RocketMQ 首先跟大家聊聊我们为什么会选用 RocketMQ&#xff…

Redis 内存优化神技,小内存保存大数据

作者 | 码哥呀来源 | 码哥字节这次跟大家分享一些优化神技,当你面试或者工作中你遇到如下问题,那就使出今天学到的绝招,一招定乾坤!❝如何用更少的内存保存更多的数据?我们应该从 Redis 是如何保存数据的原理展开&…

SchedulerX 如何帮助用户解决分布式任务调度难题?

简介:本文分别对任务调度平台的资源定义、可视化管控能力、分布式批处理能力进行了简述,并基于 SchedulerX 的能力结合实际业务场景提供了一些基础参考案例。希望通过上述内容能让大家方便地熟悉任务调度平台接入使用概况,对于现有用户也可结…

ios与android指纹识别,iOS开发swift -- 指纹识别

//导入类库 import LocalAuthenticationfunc touchID() {//创建上下文let context LAContext()var error : NSError?//判断设备是否支持指纹识别if context.canEvaluatePolicy(.deviceOwnerAuthenticationWithBiometrics, error: &error){//开始指纹识别context.evaluate…

如何做“健康码”的性能压测

简介:随着无线设备的普及和 5G 的大力建设,越来越多的线上系统、小程序成为了人们生活中必不可少的工具。对于这些工具,都会面对一个问题:系统能承受多少用户同时访问,面对突发的流量洪峰,能否保证系统无故…

对话 MySQL 之父:一个优秀程序员可抵5个普通程序员

【CSDN 编者按】MySQL之父Monty有着四十多年的编程经验,从儿时的兴趣到长大后的深耕,他在编程领域不断钻研,最终成为编程大师。《新程序员004》带你走进Monty的程序人生,谈谈他在编程方面的最新感悟以及对未来的预测。作者 | 郭露…

android read设置超时时间,在Android中的BluetoothSocket inputstream.read()中实现超时

你可以这样做&#xff1a;InputStream in someBluetoothSocket.getInputStream();int timeout 0;int maxTimeout 8; // leads to a timeout of 2 secondsint available 0;while((available in.available()) 0 && timeout < maxTimeout) {timeout;// throws in…

服务网格 ASM 年终总结:最终用户如何使用服务网格?

简介&#xff1a;本文不打算回顾 Istio 或是阿里云服务网格 ASM 的变化或趋势&#xff0c;我们来聊一聊阿里云 ASM 服务网格&#xff0c;它的最终用户是如何使用服务网格的。 作者&#xff1a;叶剑宏 背景 阿里云服务网格 ASM 于 2020 年 2 月公测&#xff0c;近 2 年的时间…

使用 nginx 轻松管理 kubernetes 资源文件

作者 | 江小南来源 | 江小南和他的小伙伴们引言nginx在传统的使用中&#xff0c;一般是作为反向代理或者负载均衡。但是它还有一个很优秀的能力常被人们所忽略。在kubernetes部署应用的过程中&#xff0c;会有大量的yaml等资源需要维护。集群内部维护起来不太方便&#xff0c;特…

Dubbo-go 优雅上下线设计与实践

简介&#xff1a;在分布式场景下&#xff0c;微服务进程都是以容器的形式存在&#xff0c;在容器调度系统例如 k8s 的支持下运行&#xff0c;容器组 Pod 是 K8S 的最小资源单位。随着服务的迭代和更新&#xff0c;当新版本上线后&#xff0c;需要针对线上正在运行的服务进行替换…

华为鸿蒙网络,这回真翻脸了?被谷歌“除名”,官宣鸿蒙手机版,华为:走着瞧...

与电脑系统类似&#xff0c;手机操作系统如今也已经被安卓和苹果的iOS瓜分殆尽&#xff0c;根据数据&#xff0c;安卓和iOS已经占据了手机操作系统99%以上的市场份额。不过由于iOS是苹果自研的封闭系统&#xff0c;所以在智能手机这么多年发展下来&#xff0c;也就自然地形成了…

SaaS服务的私有化部署,这样做最高效|云效工程师指北

简介&#xff1a;为了能够有效且高效地同时管理SaaS版本和私有化版本的发布过程&#xff0c;云效团队也结合云原生的基础设施和标准化工具&#xff08;比如helm&#xff09;进行了一系列的探索和实践&#xff0c;并将其中一些通能的能力进行了产品化。本文从问题本身出发&#…

普洛斯自研 DC Brain 系统,三大技术打造数据中心的智慧“大脑”

如今正值全球经济发展转型与变革的关键时期&#xff0c;随着数字社会的发展&#xff0c;算力作为重要的战略资源&#xff0c;是展现国家国际竞争力硬实力的关键之一。今年 2 月&#xff0c;国家发改部门联合多部门联合印发通知&#xff0c;在全国八地启动建设国家算力枢纽节点&…

阿里 BladeDISC 深度学习编译器正式开源

简介&#xff1a;随着深度学习的不断发展&#xff0c;AI模型结构在快速演化&#xff0c;底层计算硬件技术更是层出不穷&#xff0c;对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来&#xff0c;还要应对计算框架的持续迭代。深度编译器就成了应对以上…

html好看的搜索框样式,CSS美化的漂亮搜索框

CSS美化的漂亮搜索框body{font: normal 100% Arial,Helvetica,Verdana,sans-serif;color: #333;}p {padding: 12px 0;margin: 0;font-size: .8em;line-height: 1.5;}form {margin: 0;}#search_box {width: 201px;height: 31px;background: url(bg_search_box.gif);}#search_box…

浪潮“源”AI大模型如何求解数学应用题

编辑 | 宋慧 供稿 | 浪潮 “源1.0”大模型是浪潮信息发布的中文巨量模型&#xff0c;参数量高达2457亿&#xff0c;在中文语言能力理解和生成评测基准CUGE总榜中取得榜首&#xff0c;并获得语言理解&#xff08;篇章级&#xff09;、语言生成、对话交互、多语言、数学推理等5…

Quick BI产品核心功能大图(五)移动端:让数据在更多业务场景中流通

简介&#xff1a;将数据更好的融入日常工作中&#xff0c;一个重要的前提条件就是多端多渠道的数据触达和办公协同能力。 Quick BI凭借移动端交互体验&#xff0c;帮助用户随时随地便捷查看报表&#xff0c;并通过在线协同方式&#xff0c;追踪策略的执行落地。让数据在企业中流…

html5点击切换选项卡,简单纯js实现点击切换TAB标签实例

一个不需要jQuery实现的tab选项卡切换效果&#xff0c;代码简洁易用。默认是鼠标悬停显示tab效果&#xff0c;可将其中的onmouseover 修改为 onclick 点击效果使用方法&#xff1a;1、将附件中的index.html中的css样式以及代码部分拷贝到你需要的地方即可相关链接&#xff1a;几…

Dataphin产品核心功能大图(六)发布中心:生产和开发隔离模式下的保护伞

简介&#xff1a;Dataphin&#xff0c;用中台方法论打造企业级好数据。Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出&#xff0c;一站式提供数据采、建、管、用全生命周期的大数据能力&#xff0c;以助力企业显著提升数据治理水平&#xff0c;构建质量可靠、…