云上高可用系统-韧性设计模式

一、走近韧性设计模式

(一)基本概念

韧性设计模式是一系列在软件工程中用于提高系统韧性的设计原则、策略、实践和模式。韧性(Resilience)在这里指的是系统对于各种故障、异常和压力的抵抗能力,以及在遭受这些挑战后能够快速自我恢复的能力。韧性设计模式旨在确保系统在面对不可避免的故障时,能够保持高可用性、可靠性和性能。

这些设计模式不仅关注系统的开发阶段,还包括系统的部署、运维和监控阶段,形成了一个全面的韧性设计理念。通过采用这些模式,可以降低系统遭受故障时的影响,并在出现问题时快速、自动地进行恢复。

一些常见的韧性设计模式整合如下:

模式描述应用场景
重试模式 (Retry Pattern)在面对临时性故障时,系统自动尝试重新执行失败的操作。网络问题、服务瞬时不可用等。
断路器模式 (Circuit Breaker Pattern)在系统检测到连续的失败请求时,断开对失败服务的请求,避免连锁故障。避免对故障服务的过度请求,提高整体系统稳定性。
超时模式 (Timeout Pattern)为每个操作设置最大执行时间,避免长时间等待导致资源浪费。防止系统在某个操作上无限期阻塞。
限流模式 (Rate Limiting Pattern)控制系统在一定时间内的请求速率,防止系统过载。防止大量请求导致系统资源耗尽。
负载均衡模式 (Load Balancer Pattern)将请求分发到多个相同的服务实例,提高系统的扩展性和稳定性。均衡系统负载,避免单一节点故障影响整体服务。
舱壁模式 (Bulkhead Pattern)将系统的不同模块隔离开来,避免一个模块的故障影响其他模块。确保故障在一个区域内隔离,不会波及整个系统。
异步消息模式 (Asynchronous Messaging Pattern)通过消息队列将系统的不同组件解耦,提高系统的弹性和可恢复性。降低组件之间的依赖,减少同步调用风险。
灾备模式 (Disaster Recovery Pattern)设计系统的备份和恢复策略,以应对灾难性故障。数据中心故障、自然灾害等情况下确保系统可用性。
自愈模式 (Self-Healing Pattern)系统能够自动检测并恢复从故障中恢复的能力。监控系统状态,自动修复故障。
版本控制模式 (Feature Toggling / Feature Flags Pattern)通过动态切换系统的特性,使得可以在运行时开启或关闭功能。灰度发布、紧急关闭某个功能等。

这些模式的综合应用能够帮助构建更具韧性的系统,提高系统的可用性和稳定性。在云上部署和运行的环境中,韧性设计尤为重要,因为这些环境更容易受到各种因素的影响。

(二)“拥抱故障”理念

对故障和事故的定义如下:

定义例子
故障(Failure):系统不能执行预期功能的状态。宕机、请求超时、内存溢出等。
事故(Accident):故障是系统最终用户可感知的,或者造成了业务损失的情况。下单服务不可用,导致订单损失约10万单。

在故障与事故的定义中,系统不能执行预期功能的状态被定义为故障,而当故障对系统最终用户可感知,或者造成了业务损失时被定义为事故。

在大规模系统中,故障是常态。尤其在管理数千个实例的大规模系统中,宕机、系统出现Bug、请求失败、网络中断等都是经常发生的情况,而不是例外。因此,一个具备韧性的系统需要在部分故障的情况下仍能够正常运行,即使面对较大规模的故障,系统也能够提供大部分的服务。

“拥抱故障”的理念强调了开发者需要在系统的全生命周期中考虑系统如何应对故障,确保系统在故障发生时的状态是符合预期的。这并不意味着构建一个能够抵御任何故障的完美系统,而是要知道并接受系统能够在哪些情况下抵御故障,在哪些情况下会降级,以及在哪些情况下无法抵御。

韧性和成本在大多数情况下是矛盾的。在不那么关键的系统中,为了保证在罕见的自然灾害下的可用性而花费数倍的成本可能得不偿失。因此,理性的做法是在“保证高可靠所花费的成本”和“因停服而造成的潜在损失”之间找到一个合理的平衡点。

(三)避免重大事故关键方向

理解故障和事故的不可避免性后,确实需要通过一系列工作来尽量减小事故的发生概率和降低事故造成的损失。

主要的关键方向如下:

  1. 降低事故发生的概率: 通过健康检查、冗余、负载均衡等手段,预防已知故障的发生,提高系统的可用性。这是一种常见的做法,可以有效降低系统出现常见故障的概率。

  2. 减少故障时长: 在故障发生时,关键是尽快恢复系统的正常状态。快速检测故障、自动切换到备用系统、采用断路器模式等手段都有助于减少故障时长,从而降低损失。

  3. 减小故障影响范围: 在大规模系统中,故障可能只影响系统的一部分。通过设计系统的舱壁模式、服务隔离等,可以限制故障的影响范围,避免故障在整个系统中扩散。

以上三个方向共同作用,有助于降低事故的发生概率,缩短故障时长,减小故障造成的损失。另外,在大规模系统中,事故定级是一个常见的做法,通过事故定级,可以更有针对性地采取措施,提高系统的韧性。

二、保持简单的架构

KISS原则(Keep It Simple and Stupid,或者Keep It Simple, Stupid)是一项设计原则,强调在设计和开发中应保持简单性。这个原则的核心思想是,大多数系统如果保持简单而不是变得复杂,则效果最佳。KISS原则起源于美国海军,在20世纪60年代提出,并后来在计算机科学和软件工程领域广泛应用。

无论采用哪种表述,“保持简单”是KISS原则的核心含义。原则强调设计和实现应该简明直观,避免引入不必要的复杂性。这并不是要求完全排斥复杂性,而是要在确保必要功能的同时,尽量避免使系统变得难以理解、维护和扩展的复杂性。

(一)同质化部署

同质化部署是一种部署策略,它指的是在部署时将系统的所有组件集成在一起,然后部署到系统的每个实例上。这意味着系统的每个实例上运行的应用是完全一样的,所有组件被打包成一个整体。这种部署方式的集成方式一般包括一起编译打包成二进制程序或JAR包,也可以封装成包含所有组件的镜像。

同质化部署的好处在于简化了部署和运行时系统的复杂度。在部署时,不需要为每个组件准备不同的构建和部署脚本,也不必关注不同组件在启动过程中的依赖关系。在运行时,由于所有实例都是相同的,处理问题实例的替代变得更加容易。如果某个实例宕机或者出现容量问题,可以使用其他的实例来替代,而且这个热切换过程不需要拉起新的实例,速度很快,也更容易做到无感知切换。

(二)最少关键依赖原则

最少关键依赖原则是软件设计中的一项原则,强调在设计和实现系统时,应该尽量减少系统对外部组件、服务或库的依赖。核心思想是降低系统受到外部变化的影响,提高系统的稳定性和可维护性。

假设我们正在设计一个健身软件,用户可以通过该软件制定训练计划、记录健身数据等。健身软件中的用户数据直接依赖外部身体数据传感器和第三方社交媒体平台。软件在用户训练时,直接获取身体数据传感器的数据,并将健身记录分享到第三方社交媒体平台。

问题分析:

  • 系统直接依赖外部身体数据传感器和第三方社交媒体平台,增加了软件对这两个外部组件的耦合性。
  • 如果身体数据传感器或社交媒体平台发生变化,需要修改健身软件,可能导致软件其他部分的不稳定性。

应用最少关键依赖原则:

  • 重新设计健身软件,引入中间层或者服务代理。
  • 软件不再直接依赖外部身体数据传感器和第三方社交媒体平台,而是通过中间层或服务代理来与这两个服务通信。
  • 中间层或服务代理负责与外部服务进行交互,并将结果传递给健身软件。

具体实现方案:

  • 引入数据同步服务:通过引入数据同步服务,将身体数据传感器的数据同步到软件的数据存储中。健身软件直接从数据存储中获取用户的身体数据,降低了对传感器的直接依赖。

  • 使用社交媒体 API:通过引入社交媒体 API,软件通过 API 与社交媒体平台通信,将用户的健身记录分享到平台。这样,软件不再直接依赖特定的社交媒体平台实现。

(三)简化部署

在很多系统中,启动新实例时的初始化配置脚本、安装动态链接库以及从外部服务获取初始化配置等操作会导致启动速度变慢,且容易出错。这种做法在容器化部署的环境下可以通过简化部署来优化。

具体实践中,可以将这些初始化操作从首次启动阶段迁移到更早期的构建阶段,使用 Dockerfiles 或 Docker Compose 在构建镜像的过程中完成初始化工作。这种方式可以显著提高启动速度,尤其是在扩容和故障恢复的场景下。

三、冗余、无状态和幂等

冗余、无状态和幂等这三个基础的韧性模式是在设计可靠系统时的重要原则,通常被视为基础或必要条件。

(一)冗余:普适基础

冗余是提升系统可用性的一种最简单且有效的方法。在高可用架构的设计中,采用冗余设计意味着引入多个相同或相似的系统组件实例,以降低单点故障的影响,提升系统的整体可用性。冗余的方式可以涵盖硬件层面、软件层面、数据层面等。

(二)无状态服务

无状态服务是指服务在处理请求时不依赖于本地存储数据,而是通过外部存储或其他服务获取所需的信息。这种设计模式对单次请求的处理不依赖于其他请求,每个请求都包含处理所需的全部信息,或者可以从外部获取。

  • 不依赖本地存储: 无状态服务不在本地存储数据,而是从外部获取所需的信息。这使得服务可以更容易水平扩展,因为每个服务实例都是相同的,而不需要考虑本地数据的同步和共享问题。

  • 独立请求处理: 单次请求的处理不依赖于其他请求的状态,每个请求都是独立的。这样的设计适用于绝大部分在线业务服务,特别是那些数据保存在远程数据库中且请求之间没有明显关联的场景。

  • 存储计算分离: 无状态服务的状态数据被下沉到外部存储系统,实现了存储和计算的分离。这使得集群管理和调度更加简单,支持更灵活的负载均衡和水平扩展。

考虑一个健身软件的案例,该软件需要记录用户的运动数据。在传统有状态的设计中,每个服务实例可能会维护用户的运动数据状态,而在无状态设计中,用户的运动数据被存储在外部的分布式数据库中,服务实例通过API从数据库获取用户的运动数据。这样设计可以实现水平扩展,任意服务实例都可以处理任意用户的请求,而不依赖于本地存储数据。同时,用户的运动数据可以被多个服务实例同时访问,需要注意并发控制的问题。

(三)幂等性

在计算机科学中,幂等性是指一个操作的多次执行和一次执行具有相同的效果。换句话说,无论操作执行多少次,系统的状态都与执行一次时的状态相同。这个概念对于分布式系统和网络通信中的操作非常重要,因为在这些场景下,由于各种原因可能会导致请求的重复执行。

为什么需要幂等性:

在负载均衡和分布式系统中,由于网络不稳定性、超时、重试等原因,同一个请求可能被发送到不同的服务实例上。如果某个操作不是幂等的,那么在请求失败后的重试可能会导致系统状态的变化,进而引起不一致的问题。幂等性的设计可以确保即使请求被重复执行,对系统状态的影响也是相同的,从而防止因为重试而引发的副作用。

幂等性的实现方法:

  1. 业务逻辑设计: 最好的方式是从业务逻辑上入手,设计具备天然幂等性的操作。这意味着无论执行多少次,结果都是相同的。例如,创建订单服务可以设计成只有在订单号不存在时才创建订单,如果订单号已存在,则返回已存在的订单,这样无论多次执行都只会有一个订单记录。

  2. 唯一标识和检查: 使用唯一标识来防止重复操作。每个请求可以携带一个唯一标识,服务在处理请求时先检查该标识是否已经处理过,如果处理过则直接返回结果,避免重复执行。

  3. 幂等键: 引入幂等键(Idempotence Key),客户端在每次请求时都携带一个唯一的键,服务端通过这个键来判断请求是否已经处理过。这样,即使同一个请求被发送多次,服务端通过幂等键就能够判断出重复请求并进行幂等性处理。

通过保证操作的幂等性,系统可以更好地适应分布式环境和不稳定的网络条件,确保在各种情况下都能够维持一致的状态。

四、松耦合设计

在软件设计中,耦合度是指两个模块之间相互依赖的程度。松耦合(Low Coupling)是一种设计原则,旨在降低系统内部组件之间的依赖关系,从而提高系统的灵活性和可维护性。低耦合的系统中,一个模块的变化不太可能影响到其他模块,模块之间的关联性较弱。

五、Event Sourcing:全异步架构模式

六、最终一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/652639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pnpm 源不对 Will retry in 10 seconds. 2 retries left.

现象 由于使用npm config set registry 切换淘宝源时,把地址打错了。 后面使用pnpm install 时出现 此时无论我怎么使用npm config set registry 或者pnpm config set registry 切回正确的源均没有效果。 解决 在其他用npm的项目运行一下npm i 再运行pnpm i 即…

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程 和之前实现的YOLOv2一样,根据《YOLO目标检测》(ISBN:9787115627094)一书,在不脱离YOLOv3的大部分核心理念的前提下,重构一款较新的YOLOv3检测器,来对YOLOv3有…

时序预测 | MATLAB实现ICEEMDAN-SSA-GRU、ICEEMDAN-GRU、SSA-GRU、GRU时间序列预测对比

时序预测 | MATLAB实现ICEEMDAN-SSA-GRU、ICEEMDAN-GRU、SSA-GRU、GRU时间序列预测对比 目录 时序预测 | MATLAB实现ICEEMDAN-SSA-GRU、ICEEMDAN-GRU、SSA-GRU、GRU时间序列预测对比预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 时序预测 | MATLAB实现ICEEMDAN…

解密人工智能:探索机器学习奥秘

🌈个人主页:聆风吟 🔥系列专栏:网络奇遇记、数据结构 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 📋前言一. 机器学习的定义二. 机器学习的发展历程三. 机器学习的原理四. 机器学习的分类…

ElevationStation:一款专为红队设计的权限提升测试工具

关于ElevationStation ElevationStation是一款专为红队设计的权限提升测试工具,在该工具的帮助下,广大红队研究人员和渗透测试人员可以轻松实现SYSTEM权限令牌的获取,并通过将目标账号提升至SYSTEM权限来测试目标操作系统的安全态势。 Elev…

【Spark系列3】RDD源码解析实战

本文主要讲 1、什么是RDD 2、RDD是如何从数据中构建 一、什么是RDD? RDD:弹性分布式数据集,Resillient Distributed Dataset的缩写。 个人理解:RDD是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘…

前端——CSS

目录 文章目录 前言 一.CSS简介 1.CSS选择器 2.CSS选择器语法 3.CSS样式引入 4.CSS 高级选择器 二.CSS样式 1.字体 ​编辑 2.文本 3. 背景 4.边框 5.边距 6.浮动 7.清除浮动 8.定位 9. 列表样式 10.伪类样式 三.盒子模型 四.CSS3新特性 1.边框 2.盒子阴影 …

12.从项目经理的生存哲学到适配器模式(Adapter Pattern)

如果这个世界没有了项目经理,事情的发展可能并不会如同想象中一样美好,相反,对于开发人员来说可能是噩梦的开始。 比如: 客户因为几个需求的具体实现大发雷霆,甚至开始恶语相向,一通含ma量极高的“斯伯坦语…

自然语言处理:transfomer架构

介绍 transfomer是自然语言处理中的一个重要神经网络结构,算是在传统RNN和LSTM上的一个升级,接下来让我们来看看它有处理语言序列上有哪些特殊之处 模型整体架构 原论文中模型的整体架构如下,接下来我们将层层解析各层的作用和代码实现 该…

3d模型怎么分辨材质?--模大狮模型网

在3D模型中,通常可以通过以下几种方式来分辨材质: 视觉检查:在3D渲染视图或预览窗口中,您可以直接观察模型的外观来区分不同的材质。不同的材质可能具有不同的颜色、纹理、反射率等特征,因此通过直观的视觉检查&#x…

LV老板重夺全球首富 再次超过马斯克;新东方安徽总部大厦启用;中国与泰国签署互免签证协定

今日精选 • LV老板重夺全球首富 再次超过马斯克• 新东方安徽总部大厦启用• 中国与泰国签署互免签证协定 投融资与企业动态 • ​​传Temu将于3月在美国上线半托管业务• 国内数字支付解决方案提供商 “连连数字” 估值150亿,即将IPO• 滴滴与宁德时代宣布成立…

深度强化学习(王树森)笔记05

深度强化学习(DRL) 本文是学习笔记,如有侵权,请联系删除。本文在ChatGPT辅助下完成。 参考链接 Deep Reinforcement Learning官方链接:https://github.com/wangshusen/DRL 源代码链接:https://github.c…

安全防御{第三次作业(在第二次作业上添加点需求)}

目录 需求: 拓扑图: 注意:先打开防火墙web界面,在此不做演示 1.要求一:,生产区在工作时间内可以访问服务器区,仅可以访问http服务器 2.要求二:办公区全天可以访问服务器区&#…

BGP:03 BGP路由

这是实验拓扑,IBGP 利用环回口建立邻居,IGP 协议为 OSPF, EBGP 通过物理接口建立邻居 基本配置: R1: sys sysname R1 int loop 0 ip add 1.1.1.1 24 int g0/0/0 ip add 192.168.12.1 24 qR2: sys sysname R2 int loop 0 ip ad…

JCEF学习

JCEF重要概念 CEF CEF,全称Chromium Embedded Framework ,它是基于Google Chromium的开源项目,它的目标是能够向第三方程序添加WEB浏览器功能,以及可以使用HTML、CSS和JS渲染界面。 CEF框架是由Marshall Greenblatt 在 2008 年创…

第17节-高质量简历写作求职通关-投递反馈

(点击即可收听) 投递跟进和感谢信 如果对一家公司特别心仪,但是投递简历后一直得不到回复怎么办? 面试之后觉得自己没有表现好怎么办? 面试完几天了,依然没有得到回应怎么办? 这个时候你需要写一…

八种Flink任务告警方式

目录 一、Flink应用分析 1.1 Flink任务生命周期 1.2 Flink应用告警视角分析 二、监控告警方案说明 2.1 监控消息队中间件消费者偏移量 2.2 通过调度系统监控Flink任务运行状态 2.3 引入开源服务的SDK工具实现 2.4 调用FlinkRestApi实现任务监控告警 2.5 定时去查询目标…

无人机在三维空间中的转动问题

前提 这篇博客是对最近一个有关无人机拍摄图像项目中所学到的新知识的一个总结,比较杂乱,没有固定的写作顺序。 无人机坐标系旋转问题 上图是无人机坐标系,绕x轴是翻滚(Roll),绕y轴是俯仰(Pitch),绕z轴是偏航(Yaw)。…

力扣日记1.27-【回溯算法篇】131. 分割回文串

力扣日记:【回溯算法篇】131. 分割回文串 日期:2023.1.27 参考:代码随想录、力扣 131. 分割回文串 题目描述 难度:中等 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串 。返回 s 所有可…

D. Epic Transformation(堆+贪心)

思路&#xff1a;我们删的策略是从次数多的数开始删&#xff0c;每次取两种不同的数&#xff0c;每种删去一个&#xff0c;然后放回堆中。 代码&#xff1a; void solve(){int n;cin >> n;map<int,int>mp;for(int i 1;i < n;i ){int x;cin >> x;mp[x] …