打造坚不可摧的防线:容灾策略的实践与探索

在当今这个信息化时代,数据已成为企业最宝贵的财富之一。因此,保护数据免受意外损坏或灾难性事件的影响变得至关重要。这就需要企业建立一个有效的容灾体系,来确保业务连续性和数据安全。

容灾,即灾难恢复(Disaster Recovery),是指在灾难发生后,通过事先制定的方案和措施,快速恢复企业的关键业务和数据。一个有效的容灾体系,不仅能够减少灾难对企业造成的损失,而且能够帮助企业在灾难发生后迅速恢复正常运营。

容灾从大的方面分为两部分。一个是IT系统容灾,一个业务容灾

IT系统容灾可以使用云桌面,来保证生产力的可持续性。

业务容灾又分为三个方面:数据容灾应用容灾网络容灾

  1. 数据容灾(Data Disaster Recovery): 这部分主要涉及到数据的备份与恢复。企业需要确保在发生灾难时,能够迅速恢复所有关键数据。这通常包括定期将数据备份到安全的位置,例如远程数据中心、云存储或者是其他媒体上。

  2. 应用容灾(Application Disaster Recovery): 这一部分关注的是确保关键应用程序在灾难发生时能够快速恢复并重新上线。这可能涉及到在另一个数据中心或环境中部署应用的副本,并确保这些副本可以在主环境出现问题时接管服务。

  3. 网络容灾(Network Disaster Recovery): 涉及确保网络通信在灾难后能够快速恢复。为了实现这一点,企业可能需要建立冗余网络连接,以确保主要通信线路出现问题时,可以迅速切换到备用系统。

具体企业在基础设施上是怎样实现这些容灾的呢?对于数据容灾和应用容灾,主流方法如下:

  1. 离散计划:所部署应用的虚机或者容器不能在同1台物理机、同机柜、同1个leaf交换机上,尽量打散。

  2. 机房容灾:有的企业要求N+1容灾,就是N个机房部署,N个机房足以支撑100%的流量,但是会冗余1个机房。可承受1个机房完全故障;业务连续性要求高的企业会三地六中心部署,多点多活,骨干网接入,可承受2个机房同时故障。

  3. 电力配置容灾:对业务连续性要求高的企业会同时支持市电和备用发电机两种供电方式。

对于网络容灾,一般企业会支持移动、联通和电信三大运营商中的两个,有的企业会三大运营商都支持,即:运营商级别容灾

在对应真正出现问题时,大体上有两种手段。一种是自动化容灾,一种是应急恢复。

自动化容灾常见的手段有:

  1. 定期自动备份:

  • 使用自动备份软件,在预定时间自动对关键数据和系统进行备份。这些备份可以是本地的、离线的、热备的或冷备的。

实时数据复制:

  • 利用软件工具进行数据的实时复制,如数据库镜像、文件系统同步或存储复制,确保数据的多个副本存储在不同的地理位置。

自动故障转移(Failover):

  • 在主系统出现故障时,通过自动化工具将业务自动迁移到备份系统或灾备站点运行,无需人工干预。

虚拟化技术:

  • 利用虚拟化,可以迅速地创建一个或多个虚拟机的副本用于恢复。许多虚拟化平台提供自动化工具来管理和恢复虚拟机。

云服务和灾难恢复即服务(DRaaS):

  • 云计算和灾难恢复即服务(DRaaS)提供了灵活的容灾解决方案,通过在云环境中自动进行数据备份和恢复,确保灾难发生时可快速恢复。

监控和警报系统:

  • 使用监控软件自动监控系统健康状况,并在检测到异常时产生警报,有些系统甚至能自动触发灾难恢复流程。

脚本和编排工具:

  • 编写脚本来自动化备份、复制、监控和恢复流程。使用编排工具可以自动执行这些脚本以及以特定顺序执行多个任务。

恢复时间和恢复点目标(RTO和RPO)的自动化测试:

  • 自动化测试灾难恢复策略,以确保在满足预定的RTO和RPO内恢复服务。其中,恢复点目标(Recovery Point Objective,简称RPO)是在业务连续性规划和灾难恢复领域中的一个关键术语。它用于描述数据丢失的容忍度。具体而言,RPO是在发生故障或灾难时,企业可以接受的最大数据丢失量,通常用时间来度量。

容灾计划的自动审计和更新:

  • 使用容灾管理工具定时对容灾计划进行自动审计,确保所有步骤和流程都是最新的,符合当前的业务需求。

这些手段听起来可能会有些务虚,举个具体点的手段。在三地六中心架构下,跨中心进行数据库主从切换要怎样做呢?

  • 切断应用对主库的流量

  • 主库和备库都设置为只读状态

  • 查看备库复制进程状态,确保数据不落后于主库( 确认Slave_SQL_Running状态为YES,Seconds_Behind_Master为0)

  • 比对主备两边的全局事务ID是否一致

  • 从库停掉复制进程并清空主从信息

  • 从库关闭只读开启读写,转为新主库

  • 原主库设置执行新主库的复制链路,转为从库,完成主从切换

  •  应用流量切向新主库

以上步骤一般是会通过脚本等自动化工具实现,但是脚本的原理机制还是要做了解的。

应急恢复怎样做呢?

尽量实现 SOP/EOP 生产全范围覆盖,来做应急恢复。 应急恢复除了要有预案,但实际中的问题有已知可预测的和未知不可预测的。所以发生问题时也有一些原则作为兜底应急流程来对应突发情况。

原则是一旦出现了问题或者故障,第一要务是恢复现场。先解决问题,控制和降低影响。

如果遇到系统问题,生产环境突然 load 高、线程池被打满……这时候应该马上启动紧急预案。单机器故障则进行故障机器隔离。一个服务的所有机器都有问题,则重启服务或者机器,然后紧急扩容。如果问题发生前有过变更,则立即回滚。如果数据库主库连接池被打满或者其他故障,则要启动主机房切换等预案。

如果遇到业务问题,首先考虑是否有变更,有的话,如果有应急回退切换开关,则立即启用开关;没有则立即回滚;如果是下游通道故障,则考虑是否进行临时关闭通道快速失败;如果是上游问题,则考虑是否调整对应方的限流值或者直接对其做快速失败;如果是中间件故障,则考虑是否降级。比如向 MQ 写数据,MQ 出故障了就先降级不写入。等恢复后再从数据库中拉取数据写入;如果是自身某接口故障,则考虑从服务治理平台上先摘除此接口,尽量减小影响范围。

在发生问题的时候需要有个指挥者负责分派任务和协调人员。现场恢复后再着手调查原因,可以多个人从不同层面来分析问题。比如这次问题主要是一个变更引起的。那么变更的开发人员是问题分析的主力,但是其他人可以同时通过代码 review、监控等数据分析角度帮助一起定位。

原因基本定位之后,如果大家都还没离开。可以以轻松的聊天的方式,让了解问题的人都自然的聚在一起,开一个头脑风暴的茶话会,将问题事前、事中、事后可以优化的都提出来,作为正式复盘前的素材。

e7406c730b23fe7a48b8488c698408ce.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

huawei 华为交换机 配置手工模式链路聚合示例

组网需求 如 图 3-21 所示, SwitchA 和 SwitchB 通过以太链路分别都连接 VLAN10 和 VLAN20 的网络,SwitchA 和 SwitchB 之间有较大的数据流量。 用户希望SwitchA 和 SwitchB 之间能够提供较大的链路带宽来使相同 VLAN 间互相通信。 同时用户也希望能够提…

csv编辑器是干什么的?

csv编辑器是一种用于编写、编辑和管理文本文件的工具。适用于 JetBrains IDE 系列的 CSV 编辑器插件,此插件将 CSV(逗号分隔值)作为一种语言引入 Jetbrains IDE,其中包含语法定义、结构化语言元素和关联的文件类型 (.c…

基于Java+SpringBoot+Vue前后端分离婚纱影楼管理系统设计和实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行交流合作✌ 主要内容:SpringBoot、Vue、SSM、HLM…

MacBook远程桌面Windows使用Microsoft Remote Desktop for Mac_亲测使用

MacBook远程桌面Windows使用Microsoft Remote Desktop for Mac_亲测使用 像Windows上有自带的远程桌面连接软件.MacBook没有自带的远程连接Windows桌面的工具,需要安装软件来实现. 像远程桌面控制软件一般有 TeamViewer、向日葵远程控制, ToDesk, Microsoft Remote Desktop f…

使用Linux指令将Hex文件与二进制文件的相互转换

文章目录 小结问题及解决参考 小结 本文记录了使用Linux指令将Hex文件与二进制文件的相互转换。 问题及解决 在很多情况下需要将Hex内容的问题转换成二进制文件,另外的情况是,需要将二进制文件转换成Hex内容的文件。例如:需要进行hex字符串…

云计算与大数据课程笔记(六)之Apache Tez/Pig辅助笔记

Apache Tez Apache Tez 是一个为 Hadoop 集群设计的通用数据处理框架,主要用于优化 MapReduce 计算模型的执行效率。Tez 通过允许复杂的数据流图来表示数据处理任务,提高了在 YARN(Yet Another Resource Negotiator)上执行这些任…

vue实现element-UI中table表格背景颜色设置

目前在style中设置不了,那么就在前面组件给设置上 :header-cell-style"{ color: #ffffff, fontSize: 14px, backgroundColor: #0E2152 }" :cell-style"{ color: #ffffff, fontSize: 14px, backgroundColor: #0E2152 }"

宠物智能喂食机方案设计

我们都知道,现如今养宠物的人群已经很多了,主要是青年人居多,他们在独自漂泊的在外的工作,免不了情感泛滥,养一些小动物也是在预料之中。但由于工作或者其他各种因数,养宠人不可时时刻刻在家,对…

Javaweb的学习19_CSS概念+css与html的结合方式

CSS CSS:页面美化和布局控制 1. 概念:Cascading Style Sheets 层叠样式表 层叠:多个样式可以作用在同一个html的元素(标签)上,同时生效 2. 好处: 1.功能强大 2.将内容展示(HTML)和样式控制(CSS)分离 *降低耦合度。解耦…

电话机器人语音识别用哪家更好精准度更高。

语音识别系统的选择取决于你的具体需求,包括但不限于识别精度、速度、易用性、价格等因素。以下是一些在语音识别领域表现较好的公司和产品: 科大讯飞:科大讯飞是中国最大的语音识别技术提供商之一,其语音识别技术被广泛应用于各…

基于spring boot的汽车4s店管理系统

摘 要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,汽车4s店管理系统当然不能排除在外。汽车4s店管理系统是在实际应用和软件工程的开发原理之上,运用java语言以及SpringBoot框架…

[HackMyVM]靶场 Zon

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 (Un…

CSDN 停更通知

CSDN 不再更新,欢迎关注我的微信公众号,分享更多有趣的技术内容。 如果大家有任何疑问,或者感兴趣的话题,都可以通过微信公众号与我交流,相互学习,相互成长。

Css提高——Css3的新增选择器

目录 1、Css3新增选择器列举 2、属性选择器 2.1、语法 2.2、代码: 2.3、效果图 3、结构伪类选择器 3.1、语法 3.2、代码 3.3、效果图 3.4、nth:child(n)的用法拓展 nth-child(n)与nth-of-type&#x…

21年电赛-送药小车—基于OpenMV的寻迹+检测路口+数字识别(多模版匹配)(附代码)

我们花费了四天时间打了一场21年的电赛改编题——智能送药小车。虽然结果不尽人意,但这是我学习32以来第一次正式的打比赛,对我来说要学习的东西,所增长的经验真的特别多(虽然基本上都是学长在出力~)下来我就把关于这次…

阿里巴巴中国站按关键字搜索工厂数据 API

公共参数 名称类型必须描述keyString是免费申请调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]cacheString否[yes,no]默认y…

3.18数据结构

一、数据结构----->用来组织存储数据 一组用来保存一种或多种特定关系的数据的集合(组织和存储数据) 程序 数据结构 算法 MVC:软件设计架构 M:数据的管理(数据结构) V:视图&#xff0c…

8大伦理考量:大型语言模型(LLM)如GPT-4

8 Ethical Considerations of Large Language Models (LLM) Like GPT-4 1. Generating Harmful Content 大语言模型(LLM)如ChatGPT、GPT-4、PaLM、LaMDA等,具有生成和分析类人文本的能力。然而,它们也可能会产生有害内容,如仇恨言论、极端主…

B003-springcloud alibaba 服务治理 nacos discovery ribbon feign

目录 服务治理服务治理介绍什么是服务治理相关方案 nacos实战入门搭建nacos环境安装nacos启动nacos访问nacos 将商品微服务注册进nacos将订单微服务注册进nacos订单服务通过nacos调用商品服务 实现服务调用的负载均衡什么是负载均衡代码实现负载均衡增加一个服务提供者自定义实…

离线数仓、实时数仓与数据湖

1 什么是数据仓库 数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大…