稳定性保障8个锦囊,建议收藏!

稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。

#1 设定可量化的、业务可理解的可用性目标

没有度量就没有改进。Google SRE 曾在其工程实践中,就引入了针对服务可靠性的预算机制,即「Budget」的概念。技术团队和业务团队就服务不可用时长的额度,制定合理的目标,进而指导技术投资、稳定性保障、业务发展三者的全局最优解法。技术方制定稳定性的度量指标,一个关键出发点是“业务方要听的懂”。

我们可以将度量指标进行更进一步的抽象,分别从外部用户视角和从内部系统视角,全面的看待整体的可用性,甚至某种意义来讲,从外部用户视角看到的稳定性统计结果更有说服力,更有价值。暂且把从外部用户视角对系统可用性的度量指标称之为「北极星指标」。通过北极星指标的实时变化趋势,技术和业务团队可以全面的了解系统的运行状态,当发生全局故障的时刻,也可以让所有参与者能够清楚知晓对核心业务的影响面,进而对故障级别、应急处置优先级有统一的认知。北极星本质上,就是在从用户的视角,来整体看待复杂系统的稳定性。

举几个例子:

  • 对于类似 zoom 这样的在线会议业务,其北极星指标可以定义为「1分钟内的参与会议的方数」;
  • 对于电商业务,其北极星指标可以定义为「1分钟内的交易笔数」;
  • 对于游戏业务,其北极星指标可以是 「1分钟内的同时在线游戏人数」;
  • 对于类似滴滴这样的出行业务,其北极星指标可以是「1分钟内的呼叫次数」「1分钟内处于行程中的订单数」;
  • 对于直播类的业务,其北极星指标可以是「1分钟内的主播在线数」「1分钟内的观众在线数」「1分钟内的打赏总金额」等;

从故障发现和定位的角度,一旦这些北极星指标发生了异常波动,就代表了核心业务受到了影响,该事件应该要第一时间被响应并上升,故障应急小组第一时间就位,相关支撑系统的工程师也要被 involve 进来。这种方法可以确保技术团队在业务受损的第一时间就能感知到,起到了故障发现兜底的作用。

同时,北极星指标经过一段时间的运行,其异常的时间、正常的时间,本身就是一个很客观的度量我们系统是否稳定的依据,作为技术团队和业务方沟通的桥梁,是最合适不过了。一年到头,稳定性好与坏,不是技术团队自说自话,从外部用户的视角,用北极星指标的统计结果更客观。

#2 建立可重复执行的发现 、定位、止损路径

故障发现定位处理闭环

故障发现、定位、止损,是稳定性保障闭环中最紧迫、最关键的环节,通常技术人员会做的事情是从各个维度收集『信息』以辅助决策:

  1. 看哪些功能和系统受到了影响和受影响的程度
  2. 看受影响的是哪个单元(如果有多活、多集群或多云架构的话)
  3. 看是否有相关的变更等重要事件
  4. 看系统的容量是否过载
  5. 看有没有基础设施的故障(网络/机房等)
  6. 从端上向后端trace日志,看异常源自哪个环节
  7. 看全局日志/指标的统计数据,判断故障的特征
  8. 看其他多种维度的数据、使用更多的定位工具。。。

在这个环节,推荐重点加强以下三个点:

  1. 问题的排查路径,是否可以固化在平台上,变成套路,并通过每次的故障复盘逐步的完善
  2. 在问题的排查过程中,尽量把需要的数据、信息透明化,免去工程师在不同的工具、平台之间跳转的时间
  3. 把最有经验工程师的专家经验,能否沉淀到平台上,变成所有工程师的经验

故障紧急止损,常见的手段也是相对固定的,不外乎:

  1. 变更回滚
  2. 流量调度
  3. 服务降级
  4. 接口限流
  5. 弹性伸缩
  6. 机器重启
  7. 服务重启
  8. 单点切换

所以,能否把故障的排查结论和固定的止损手段,快速关联起来,决定着本次故障处理的速度,也就决定了本次故障最终的级别。

#3 确保核心服务有冗余、可切换

在架构设计过程中,采用“面向失败设计架构”的思想至关重要,任何系统、模块都有失效的概率。所以,我们需要重点关注以下几个方面:

  1. 梳理和识别业务主流程上的关键节点
  2. 主流程上的关键节点,需要定期review,避免随着业务的迭代,出现遗漏
  3. 制定针对关键模块的冗余方案,以及对应的容灾切换方案
  4. 极端情况下,核心模块有“从零恢复”的预案

#4 确保非核心功能可降级、可熔断

在现代化的软件架构下,系统的模块数量很多,实例数量也很多,实例之间的调用链复杂。往往会由于“非主流程”的模块故障,导致“主流程”被阻塞、甚至“雪崩”。在识别出主流程上的关键节点之外,所有的非核心功能,都必须具备可降级、可熔断的能力。

重点关注以下几点:

  1. 可以查看核心模块的依赖列表,并清楚的呈现每个依赖的接口的流量、成功率、延迟等黄金指标(推荐增加Tracing的覆盖率)
  2. 在非核心功能层面,有开关可以一键熔断和降级(推荐使用feature flags技术)

#5 有状态服务,限流是恢复故障的关键抓手

有状态服务,在故障时候,一般很难短时间内进行扩容,这往往涉及到数据的迁移和再平衡,而数据的迁移又会加重系统的负载,降低系统的性能,导致故障会变的更严重,“雪崩”现象往往就是这么引起的。因此,针对有状态服务,在故障的时刻,最有效的恢复手段是“限流”。

在限流的过程中,需要关注以下几点:

  1. 限流的阈值优先考虑设置“全局限流”阈值,这样在实例数量很多的情况下,限流更准确
  2. 某个模块的容量上限,平时要摸出来,并按照流量、延迟、成功率进行量化
  3. 在“雪崩”严重的情况下,为了让相关模块能快速恢复,推荐的限流操作顺序为:先拒绝所有流量,然后逐步提升限流的阈值,给系统逐步恢复的时间和空间

#6 无状态服务,弹性伸缩是恢复故障的关键抓手

  1. 在系统架构设计上,尽可能设计无状态服务的架构,把有状态的东西更多转移到数据库、对象存储、消息队列等服务中。
  2. 将计算层微服务化,有助于更好的弹性伸缩。

#7 严格执行灰度发布,把影响面控制在小流量阶段

根据统计规律,只要有变更, 就有很大的概率引发故障。统计数据显示,70%的故障都和变更相关,这些变更包括:

  1. 线上发布新版本
  2. 配置变更
  3. 开关变更(feature flags)
  4. 数据库变更
  5. 网络变更

降低变更引发的故障的影响面的方法包括:

  1. 严格执行灰度发布流程,把问题暴露在小流量阶段
  2. 尽可能的保持开发、预发布、线上环境相同,尽早暴露问题

#8 善用云服务

用多az胜过用多云

  • 多az基本可以保障云基础设施的可用性,多云反而会给业务系统的设计带来更大的复杂度,从而引入更多的稳定性风险点。

用对象存储静态文件

  • 成本优化上:按量使用付费,不需要提前预制大量长期浪费的空闲空间,并且有丰富的存储形式,单价也低于块存储;
  • 容错能力上:一般都是三副本,可以做版本管理,优于块存储;
  • 性能上:是公有云的全托管服务,单用户请求可能逊于块存储设备,但是在多用户特别是海量场景下性能有保证;
  • 安全性:是公有云的全托管服务,有丰富的安全策略可以配置,只需要在使用注意选择和配置,日常维护由公有云保证;
  • 扩展性:极好,因为空间接近无限制,研发人员无需担心空间不足情况,不需要猜测容量需求;
  • 开发优势:因为是基于 API 的公开服务,所以方便多个服务共享使用,是一个很好的解耦渠道;

尽量用云托管服务

  1. 云托管服务,指的是由公有云完全托管管理,客户不关心具体的服务器细节,只通过接口来使用服务,通过公有云的控制台、API、SDK 来管理服务,扩展、容错能力和可用性通常内置在服务中。
  2. 鼓励和推荐研发人员选用托管服务
    • 给研发人员一定的托管服务权限
    • 给研发人员提case的权限以应对托管服务的问题
    • 让TAM直接服务研发人员
  3. 运维管住自己的手:)
    • 尽量不自建各种开源服务
    • 拒绝任何维护非业务代码服务的要求
    • 可以购买商业 SaaS 来替代公有云没有的托管服务

数据不要存在服务器上

  1. 日志存S3或者打入到ELK等外部服务中;
  2. 配置文件应该通过外部或者环境获取
    • 外部就是类似Parameter Store或者其他配置中心
    • 环境就是可以通过ec2启动时的用户数据,或者pod启动时环境变量来注入具体的配置
  3. https证书应该用acm和相关服务来解耦,或者参照配置文件获取;
  4. 密钥应该通过外部或者环境获取,类似Parameter Store;
  5. 业务数据应该进入S3或者数据库;
  6. 应用之间的中间数据,应该送往消息队列进行解耦处理;
  7. 所有脚本和配置应该代码库统一管理,部署应该按照CI/CD管理;
  8. 服务器开机,应用服务自启动;
  9. 将程序设计成无状态,无共享,可以随时终止;

注:「善用云服务」,节选自「云原生王四条」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/158263.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2304. 网格中的最小路径代价 : 从「图论最短路」过渡到「O(1) 空间的原地模拟」

题目描述 这是 LeetCode 上的 「2304. 网格中的最小路径代价」 ,难度为 「中等」。 Tag : 「最短路」、「图」、「模拟」、「序列 DP」、「动态规划」 给你一个下标从 0 开始的整数矩阵 grid,矩阵大小为 m x n,由从 0 到 的不同整数组成。 你…

深入理解JSON及其在Java中的应用

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏:每天一个知识点 ✨特色专栏&#xff1a…

2024中国眼博会,北京国际护眼产品与视力防控产品展览会

与社会各界眼康同仁一道,打造2024年度全国唯具参展价值的盛会-CEYEE中国眼博会; CEYEE中国眼博会概要: ——中国(北京)国际青少年眼健康产业展览会China (Beijing) International Youth eye health industry exhibiti…

集成电路工厂用什么ERP?哪家的集成电路ERP比较好

集成电路通常对制造工艺、生产设备、品质检验等方面有较高的要求,而随着智能技术和自动化技术的发展成熟,如今集成电路行业逐渐迈入数字化和智能化阶段,而至这个时代背景当中,很多集成电路工厂借助ERP实现信息化转型升级。 时至今…

java/Android:将字符串按数量分割

分割成数组 import java.util.Arrays;/*** Java将字符串按照指定长度分割成字符串数组*/ public class StringUtils {public static void main(String[] args){String data "227d77a7a244c7b2be3180f2d46be352f56ddf92866692f2cac797358097e5a3e90f6d20bb96bc516a4ab9c0…

喜爱拍拍宝宝照片的,一定要制作照片书方便保存

​制作照片书,让美好记忆长久保存。随着数码技术的普及,我们拥有了越来越多的照片,但如何妥善保存这些珍贵的回忆呢?一张张照片随意夹在相册里,时间一长,容易丢失或混乱。而照片书则不同,它把多…

ROS2对比ROS1的一些变化与优势(全新安装ROS2以及编译错误处理)《1》

1、概述 我们在前面介绍的ROS,都是ROS1的版本,近期对机器狗进行学习的时候,发现版本是ROS2了,也发现平时习惯的一些命令都有了变化,改变还是挺大的,不过熟悉之后还是很习惯ROS2的写法。 ROS2不是在ROS1的基…

python数据结构与算法-13_高级排序算法-分治法

分治法 (Divide and Conquer) 很多有用的算法结构上是递归的,为了解决一个特定问题,算法一次或者多次递归调用其自身以解决若干子问题。 这些算法典型地遵循分治法的思想:将原问题分解为几个规模较小但是类似于原问题的子问题,递…

#include <tf/tf.h>这个头文件有哪些主要的功能?

在 ROS&#xff08;Robot Operating System&#xff09;中&#xff0c;#include <tf/tf.h> 是一个非常重要的头文件&#xff0c;它属于 tf 转换库&#xff0c;主要用于处理和转换不同坐标系之间的位置和方向。以下是 tf/tf.h 头文件的一些主要功能&#xff1a; 坐标系转换…

SOEM主站开发篇(1):移植SOEM主站到Linux开发板

0 工具准备 1.SOEM-1.4.0源码(官网:http://openethercatsociety.github.io/) 2.EtherCAT从站(本文使用DE3E-556步进电机驱动器) 3.Linux开发板(本文为正点原子I.MX6U ALPHA开发板) 4.交叉编译工具(arm-linux-gnueabihf-gcc) 5.cmake(版本不得低于3.9,本文为3.9.2&a…

vue3+element Plus中使用日期格式化库day.js

element Plus中使用日期格式化库day.js,无需再单独引入day.js Element-plus (opens new window)组件库默认支持 dayjs 进行日期时间处理&#xff0c;所以可以直接导入使用&#xff0c;相关 Date Picker (opens new window)组件介绍。 day.js官网链接dayjs.fenxianglu.cn/ El…

sap系统连接其它系统

本文来自博客园&#xff0c;作者&#xff1a;Lovemywx2&#xff0c;转载请注明原文链接&#xff1a;https://www.cnblogs.com/1187163927ch/p/8669859.html JAVA连接ORACLE数据库 1&#xff0c;首先需要在Oracle安装完成之后新建一个用户 --新建用户 create user chenh iden…

C 标准库 - <math.h>和<setjmp.h>详解

目录 简介 库宏 库函数 实例 简介 库变量 库函数 实例 <math.h> 简介 <math.h> 是 C 标准库中的一个头文件&#xff0c;主要提供了数学运算相关的函数和宏定义。它允许您在 C 程序中执行各种常见的数学计算&#xff0c;如三角函数、对数、指数、幂运算等。…

两个跨域页面通信(iframe) (postMessage)

两个跨域页面通信&#xff08;iframe&#xff09; (postMessage) 在浏览器的安全模型中&#xff0c;JavaScript通常只能访问与当前网页具有相同源&#xff08;协议、域名、端口&#xff09;的 localStorage 数据&#xff0c; 这意味着&#xff0c;如果你的网页想要访问其他网站…

设计模式 之单例模式

单例模式是一种创建型设计模式&#xff0c;它确保一个类只有一个实例&#xff0c;并提供全局访问点&#xff0c;使得该实例可以在程序的任何地方被访问。单例模式经常用于管理共享资源或限制对象创建数量的情况下。 实现一个单例模式需要注意以下几个关键点&#xff1a; 构造…

呼叫中心自建好还是云外呼好用?

传统的呼叫中心在科技的发展下已经被不适用了&#xff0c;都开始使用起智能化的呼叫中心&#xff0c;一个是自建式呼叫中心&#xff0c;一个是云外呼系统。那自建式呼叫中心与云外呼系统的区别有哪些呢&#xff1f; 1、企业自建呼叫中心 劣势 系统维护更新难&#xff1a;自建…

C语言第二十弹--求最大公因数

求最大公因数 最大公因数&#xff1a;也称最大公约数、最大公因子&#xff0c;指两个或多个整数共有约数中最大的一个。 一、穷举法 思路&#xff1a;找到两个数之间的最少值 使用第三接收最小值&#xff0c;然后通过判断两者%n是否同时等于0&#xff0c;同时为0证明就是两者…

安装vue vue-server-renderer报错

安装vue和vue-server-renderer时报错可能有多种原因&#xff0c;以下是一些可能的解决方法&#xff1a; 确认安装了正确的版本&#xff1a;检查您需要安装的Vue版本和Vue-Server-Renderer版本是否匹配&#xff0c;可以在官方文档中查看。 检查网络连接&#xff1a;请确保您的网…

Proxifier联动BurpSuite抓取小程序

直接上软件包 Proxifier安装包https://pan.quark.cn/s/7fb9ad6deb7cProxifier配置文件https://pan.quark.cn/s/049c5f21c97e 无话可说直接操作 1、安装Proxifier步骤可以省略..... 2、将下面文件导入到Proxifier中 3、左上角文件-导入配置文件&#xff08;因为我已经导入过…

java金额大小写转换/金额转大写/数字金额转换为中文大写金额

文章目录 处理金额问题时&#xff0c;经常需要将数字金额转换为中文大写金额&#xff0c;以下为代码及测试用例。 代码 package com.common.utils.money;import org.apache.commons.lang3.RandomStringUtils; import org.apache.commons.lang3.RandomUtils; import org.apache…