故障处理流程规范(新)

一、背景

为什么要重新制定故障处理流程?

2020年写过一篇文章: 故障处理流程和规范,在过去的这三年内,故障处理流程输出了好几个版本,但都没有很好的落地,所以本次的目标是,制定一个简单、易操作,易落地的故障处理流程。

将全链路中的各个组件和服务责任到人,当出现故障时,各司其职,快速分析定位,快速反馈。

二、故障处理流程

1、事前(故障规范)

步骤补充说明
统一故障处理群- 创建线上故障的统一处理群,请提前置顶,方便快速定位本群
- 入群要求:产研中心各部门核心关键人员
- 入群职责
      - 群内成员都有责任排查问题,并反馈分析结果
      - 群内成员对群内反馈的问题有责任进行甄别,若反馈的问题很小,可提醒单独拉群进行处理,避免信息影响到过多人员
故障整体跟进人- 统一指挥,及时跟进,可以是指定的几个人

2、事中(故障处理)

步骤步骤内容补充说明
第一步信息同步- @所有人,同步故障关键信息,以便其他人员快速了解故障情况
- 若1分钟内无人响应,则直接电话加急(自行判断是否需要)
第二步分析排查- 按责任分工,各司其职,快速分析排查,定位问题
- 说明:针对问题点明确的故障,精准分析并反馈即可
第三步分析反馈- 按责任分工,各自快速反馈有无问题,以便快速定位问题
- 分析反馈时限:3-5分钟内反馈
第四步故障处理- 核心原则:以最有效,最短时间恢复故障为第一目标
- 常用手段:扩容、回滚、重启、紧急更新、限流降级等
第五步进度反馈- 由整体跟进人于群中,定期同步故障处理进度(内容清晰明了即可)
- 故障处理进度同步频率:主链路故障:每15分钟同步一次;其他故障:每隔30分钟同步一次
- 故障修复后,务必通知反馈方,告知问题已解决

3、事后(故障复盘)

步骤补充说明
故障复盘- 指定一名人员,牵头推动如下事项
    - 输出故障报告:2个工作日内
    - 组织故障复盘会:5个工作日内

三、常见的定责标准

制定明确的定责标准,有利于尽量减少争议。定责是是问题复盘中最棘手的部分,要做到公平公正、让各方心服口服是一项很大的挑战。

定责标准描述
1.违反公司规章/制度/流程的承担主责- 比如公司规定必须要有灰度策略才能升级,某业务版本直接全量升级导致发生为。
2.出现重大纰漏的承担主责- 比如测试时漏测了某个常见的业务场景,导致上线后发生问题,测试承担主责,产品承担主责(因为上线前验收阶段没有发现问题),开发反而不一定承担责任(看具体的公司和团队要求)。
3.问题源头承担主责- 比如A系统磁盘故障,导致接口响应很慢且问题持续时间很长,从而进一步导致B系统对外响应也超时,这种情况下A系统应该承担主责,B系统承担次责。
4.问题放大者承担主责- 比如A系统磁盘故障,导致接口响应很慢但只持续了几分钟,结果诱发了B系统的设计缺陷,导致B系统瘫痪了1个小时,这种情况下B系统应该承担主责。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/627653.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【架构】docker实现集群主从扩容【案例3/4】

实现集群主从扩容 当整个集群扛不住流量的情况时,需要给集群扩容增加设备,由3主3从,扩为4主4从。实现: 示意图如下: 第一步:新创建两个节点(redis-node-7,端口6387和 redis-node…

sqli-labs关卡25(基于get提交的过滤and和or的联合注入)

文章目录 前言一、回顾上一关知识点二、靶场第二十五关通关思路1、判断注入点2、爆显位个数3、爆显位位置4、爆数据库名5、爆数据库表名6、爆数据库列名7、爆数据库数据 总结 前言 此文章只用于学习和反思巩固sql注入知识,禁止用于做非法攻击。注意靶场是可以练习的…

11 最小字符子串

给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串,则返回空字符串 "" 。 注意: 对于 t 中重复字符,我们寻找的子字符串中该字符数量必须不少于 t 中该字符数量。如果…

LeetCode每周五题_2024/01/15~01/19

文章目录 82. 删除排序链表中的重复元素 II题目题解 82. 删除排序链表中的重复元素 II 82. 删除排序链表中的重复元素 II 题目 给定一个已排序的链表的头 head , 删除原始链表中所有重复数字的节点,只留下不同的数字 。返回 已排序的链表 。 题解 /**…

数据结构之list类

前言 list是列表类。从list 类开始,我们就要接触独属于 Python 的数据类型了。Python 简单、易用,很大一部分原因就是它对基础数据类型的设计各具特色又相辅相成。 话不多说,让我们开始学习第一个 Python 数据类型一list。 1. list的赋值 输…

【shell】读取表格文件的数据

碎碎念 shell在处理复杂问题的时候不具备优势,如果业务环境能够使用python的话用python又简单又好用,但是很多云平台的现场可能需要shell脚本文件(还好是要求bash) 但是现在有一个业务场景就是运维人员会把参数写在excel表格中 …

连接世界:2024 年 5G 及未来技术趋势

在不断发展的技术领域,2024 年有望实现突破性的进步,从而重塑我们与世界的联系方式。 这场革命的前沿是备受期待的 5G 技术的推出及其后续发展。 当我们步入互联无极限的未来时,可能性似乎是无限的。 5G的兴起: 开启互联新时代 …

《教育》期刊是什么级别的期刊?是正规期刊吗?能评职称吗?

《教育》以教育行业的各类新闻为重点,积极推广各地教育部门改革经验及优秀成果,努力挖掘教育一线先进单位和个人,充分发挥新闻舆论的监督作用。 收录情况:知网收录 投稿方式:教育类|《教育》省级 出版周期&…

ftp的介绍与安装

ftp 文章目录 ftp1. ftp简介2. ftp架构3. ftp数据连接模式4. 用户认证5. vsftpd5.1 vsftpd安装5.2 vsftpd配置5.3 vsftpd虚拟用户配置 1. ftp简介 网络文件共享服务主流的主要有三种,分别是ftp、nfs、samba。 FTP是File Transfer Protocol(文件传输协议…

Java 常用加密解密

Java 常用加密解密 常见的加密算法可以分成三类,对称加密算法,非对称加密算法和Hash算法。 对称加密 指加密和解密使用相同密钥的加密算法。对称加密算法的优点在于加解密的高速度和使用长密钥时的难破解性。假设两个用户需要使用对称加密方法加密然后…

B端产品经理学习-B端产品的项目管理

项目管理的作用 指导Roadmap落地 每个节点的项目时间需要按照时间点落地,才不会影响后面的项目事件 为了明确需求,明确研发的工作 避免产研部门因为需求扯皮、研发部门抱怨需求文档不够清晰、在开发过程中增加很多细节需求、增加了研发的工作量、初次…

java自定义工具类在List快速查找相同字段值对象

根据对象某一字段名,获取字段值,将List转换为Map中包含list,Key为字段值,Value为相同字段值的对象list,快速定位具有相同字段值的对象,转换之后便于在Map中根据字段值快速查找相同字段值的对象 //List转Map…

OPC UA 开源库编译方法及通过OPC UA连接西门S7-1200 PLC通信并进行数据交换[一]

前言 在现代工业自动化领域,OPC UA(开放性生产控制和统一架构)是一种广泛应用的通信协议。本文将以通俗易懂的方式解释OPC UA的含义和作用,帮助读者更好地理解这一概念。 一、OPC UA的定义 OPC UA全称为“开放性生产控制和统一…

R语言【paleobioDB】——pbdb_orig_ext():绘制随着时间变化而出现的新类群

Package paleobioDB version 0.7.0 paleobioDB 包在2020年已经停止更新,该包依赖PBDB v1 API。 可以选择在Index of /src/contrib/Archive/paleobioDB (r-project.org)下载安装包后,执行本地安装。 Usage pbdb_orig_ext (data, rank, temporal_extent…

生存分析序章4——生存分析之Python篇:自定义方法与进阶技术探索

目录 写在开头1. 定制生存曲线1.1 利用Python自定义生存曲线1.1.1 构建生存函数1.1.2 自定义曲线样式1.2 特殊需求下的曲线绘制2. 高级Cox模型2.1 引入时间依赖性的Cox模型2.1.1 时间依赖性的概念2.1.2 模型调整2.1.3 场景举例2.2 处理复杂数据的Cox模型应用2.2.1 类别型特征处…

08 整合SSM快速实战

整合配置实战 1 数据库/依赖/实体类/日志准备 CREATE DATABASE mybatis-example;USE mybatis-example;CREATE TABLE t_emp(emp_id INT AUTO_INCREMENT,emp_name CHAR(100),emp_salary DOUBLE(10,5),PRIMARY KEY(emp_id) );INSERT INTO t_emp(emp_name,emp_salary) VALUES(&qu…

Canvas的简单示例

Canvas可用于在网页上绘制图形、动画和交互式内容。 以下是一个简单的Canvas基本用法示例&#xff0c;用于绘制一个红色的矩形&#xff1a; HTML代码&#xff1a; <!DOCTYPE html> <html> <head> <title>Canvas Example</title> </…

简单整理FFmpeg相关命令集

FFmpeg相关命令集 简单整理了FFmpeg相关命令&#xff0c;主要包括ffplay播放控制和媒体播放命令、ffmpeg命令相关参数以及常用的提取音视频等命令。 &#x1f3a1;导航小助手&#x1f3a1; FFmpeg相关命令集1.ffmpeg命令分类查询2.ffplay命令2.1 ffplay播放控制2.2 ffplay命令…

数据绑定,defineProperty,v-on,事件处理

目录​​​​​​​ v-bind单向数据绑定 defineProperty 是v-on的简写 事件处理 v-bind单向数据绑定 从name绑定到v-bind到value单向数据绑定&#xff1a; <input type"text" :value"name"> <input type "text" v-model"na…

领导看了就给我升职加薪的年终总结,我只花5分钟就写完了!

年末正是做总结的时候&#xff0c;如果你正苦于年终总结不知道该如何下手&#xff0c;ProcessOn刚好上线了AI一键帮你生成年终总结的活动&#xff0c;还可以下载成PPT格式&#xff0c;或许可以助你一臂之力&#xff0c;操作起来十分简单。当然&#xff0c;计划也可以一键生成&a…