方法论与技术栈双管齐下的运维可用性能力建设(六)

2)实战演练

(1)非交易期的实战切换

非交易期的实战切换和前面“例行可用性演练”中的切换差不多,只是切换后不马上切换回来,需要生产系统在备份模块中运行一段时间,或长期运行。比如,单数据中心内的双机切换、多数据中心或灾备数据中主的切换后的运行。通过这类验证,能更好的发现主备机的高可用,并在实战运行的过程中发现运维日常过程中存在的问题,比如配置未更新、程序未同步等。

(2)破坏性演练

破坏性演练是在交易期对应用某个模块,或关联系统的某个模块,当运行负载规模下降或不可用情况下的实战演练。这类演练在金融企业很少提及,在互联网公司中有提到,比如 :Netflix为提高可用性能力,解决无法在测试环境完全模拟出真实的线上环境,可用性问题在测试环境测试时没法发现,但是在线上环境却频繁发现微服务并不是完全高可用的问题, Netflix 决定在线上环境进行破坏性测试。采取的破坏性措施包括:关闭特定服务接口,关闭特定缓存服务,关闭特定 DB 服务,增加网络丢包率,增大网络延迟等。

2应急手段

1)最好的应急手段

最好的应急手段是提前消灭潜在的故障, 应该要不断的反思己制定的应急场景是否有优化的空间,不断减少或更新这些场景。

2)做好应急预案

提前制定好故障应急方案是很有必要的,但在日常工作过程中我们的应急方案遇到一些问题:

应急方案缺乏持续维护,缺乏演练,信息不及时、不准确;

应急方案过于追求大而全,导致不利于阅读与使用;

应急方案形式大于实际使用效果,方案针对性不强;

只关注应急方案的内容,但没有关注运维人员对方案的理解;

针对上述常见问题,应急方案需要做到以下几点:

(1)内容精&简

很多人可能会认为故障出现的形式各种各样,所以应急方案需要涉及到方方面面。但实际的故障处理过程中,我们可以发现其实我们的应急措施往往重复使用几个常用的步骤,所以应急方案要有重点,如果一个应急方案可以应对平时故障处理80%的场景,那这个应急手册应该是合格的。

过于追求影响应用系统方方面面的内容,会导致这个方案可读性变差,最终变成一个应付检查的文档。以下是应用系统应急方案应该有的内容:

系统级

能知道当前应用系统在整个交易中的角色,当前系统出现问题或上下游出现问题时,可以知道如何配合上下游分析问题,比如:上下游系统如何通讯,通讯是否有唯一的关键字等。

另外,系统级里还涉及一些基本应急操作,比如扩容、系统及网络参数调整等。

服务级

能知道这个服务影响什么业务,服务涉及的日志、程序、配置文件在哪里,如何检查服务是否正常,如何重启服务,如何调整应用级参数等。

交易级

能知道如何查到某支或某类交易出现了问题,是大面积、局部,还是偶发性问题,能用数据说明交易影响的情况,能定位到交易报错的信息。这里最常用的方法就是数据库查询或工具的使用。

知道最重要的交易如何检查是否正常,重要的定时任务的应急处理方案,比如开业、换日、对账的时间要求及应急措施。

(2)辅助工具的使用

有时候,需要借助一些工具或自动化工具辅助分析并应急,这时需要有辅助工具如何使用的方法。

(3)沟通方案

沟通方案涉及通讯录,包括上下游系统、第三方单位、业务部门等渠道。

上述3点内容如何都完备,相信这个应急手册己可以解决80%的故障恢复工作。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/843998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型额外篇章一:用huggingface的电影评论数据集情感分类训练模型

文章目录 一、介绍和准备1)介绍2)准备(安装依赖) 二、开始训练 一、介绍和准备 1)介绍 工具:huggingface 目的:情感分类 输入:电影评论 输出:标签 [‘neg’,‘pos’] 数据源:https…

「架构」单元测试及运用

在参与管理和研发软件项目的过程中,单元测试的实际运用对于确保最终产品的质量至关重要。以下是一些实际运用的案例和说明。 静态测试的实际运用 在TechCorp的电子商务平台项目中,静态测试作为代码质量保证的第一道防线。开发团队在编写代码的同时,使用SonarQube等静态代码…

【学习Day1】计算机基础

✍🏻记录学习过程中的输出,坚持每天学习一点点~ ❤️希望能给大家提供帮助~欢迎点赞👍🏻收藏⭐评论✍🏻指点🙏 1.1 中央处理单元CPU 中央处理器(CPU,central processing unit&…

在全志H616核桃派开发板上进行音频配置的方法详解

耳机口​ 核桃派板载的3.5mm音频输出口,该接口有一定的输出功率,可以使用耳机或者带功放的扬声器都可以播放声音。 查看音频设备​ 可以使用下面指令来查看音频信息: aplay -l音频播放测试​ 播放系统自带wav音频文件测试, 下面指令的au…

控制台生产厂家生产流程详解

控制台生产厂家的生产流程是一个复杂而精细的过程,它涉及多个环节,从原材料的准备到最终产品的出厂检验,每一步都至关重要。以下是控制台生产厂家的一般生产流程: 厂家会根据客户的需求和市场趋势进行产品设计。设计师会综合考虑控…

闪电加载:Hexo博客性能优化全攻略

巴索罗缪大熊 前言 这些年积累了很多前端性能优化的知识点和思路,日常工作很少涉及技术层极限优化,近期终于一点点把博客独立搭建并部署了,对之前的一些技术点进行了深度探索,最终结果也达到了预期效果,由于水平有限&…

河北奥润顺达集团研究院PMO经理常江南受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 河北奥润顺达集团研究院PMO经理、研发部运营管理办负责人常江南先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“初建PMO的体系宣贯和人员培养实践总结”。大会将于6月29-30日在北京举办,敬请关注&#xf…

如何利用云平台上更好地规划安全生产教育与培训

在平台上进行安全教育和培训,可以采取以下步骤和策略,以确保教育的有效性和参与度: 一、明确教育目标和培训内容 确定教育目标:明确希望员工通过培训达到的安全意识和技能水平。 制定培训内容:根据行业特点、岗位需求…

centos7安装python-gdal环境

python3 yum install python3 python3-pip -y gdal-3.6.2 参考编译postgis python安装gdal export CPLUS_INCLUDE_PATH/usr/local/gdal-3.6.2/include export C_INCLUDE_PATH/usr/local/gdal-3.6.2/include export LDFLAGS"-L/usr/local/gdal-3.6.2/lib64" pip3…

猿编程是用什么语言编程的:深入剖析其背后的语言选择与魅力

猿编程是用什么语言编程的:深入剖析其背后的语言选择与魅力 猿编程,这个富有创意和活力的编程平台,引发了众多编程爱好者的关注。那么,猿编程究竟是用什么语言进行编程的呢?这背后又蕴含着怎样的语言选择与魅力&#…

wordpress子比主题文章付费发卡插件

插件仅适用于子比主题 插件演示 免费下载 :子比主题文章付费发卡插件_麦田吧 如下图,添加卡密支持批量添加,按照卡号(英文逗号/空格/—-)密码的格式输入,一行一条,可以直接添加数据&#xff0…

​​人工智能_大模型083_大模型时代机遇02_提示词优化开发工具_立项_计量模式_真实需求_5why法---人工智能工作笔记0218

上一节我们提供了一个非常好用的提示词,优化开发的,调试工具 vellum 可以看到是这个工具 使用的时候,写完一段提示词,可以选择不同的模型,看看给出的效果情况 对应的模型非常多. ### 立项在立项阶段,要对这三个要素有初步的答案:1. 真实需求是什么? 2. 商业模式是什么? 3…

SSH远程登录时常见问题解决

SSH时出现WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 问题解决——SSH时出现WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 翻译过来就是 警告:远程主机标识已更改! 此报错是由于远程的…

Tomcat端口配置和网页浏览

安装完成Tomcat后,到安装目录里看到内容如下: 各文件夹作用 bin:可执行文件(启动文件startup.bat、关闭文件shutdown.bat)conf:配置文件(修改端口号:server.xml,建议将s…

[自动驾驶技术]-5 Tesla自动驾驶方案之算法(AI Day 2021)

有朋友问我,如何有效学习一个新技术。笔者这么多年的经验是:1)了解国内外产业应用和标准法规现状,先建立宏观知识图谱及技术系统框架;2)根据系统框架逐块进行深入研究(横向、纵向)&a…

【html+css(大作业)】二级菜单导航栏

目录 实现效果 代码及其解释 html部分 CSS部分 hello&#xff0c;hello好久不见&#xff01; 今天我们来写二级导航栏&#xff0c;所谓二级导航栏&#xff0c;简单来说就是鼠标放上去就有菜单拉出&#xff1a; 实现效果 代码及其解释 html部分 <!DOCTYPE html> &l…

gulp入门4:dest

在Gulp中&#xff0c;dest() 方法是一个核心功能&#xff0c;用于指定文件处理流程后输出文件的目录。以下是对 gulp.dest() 的深入讲解&#xff0c;按照分点表示和归纳进行整理&#xff1a; 1. 基本用法 gulp.dest() 的基本语法为 gulp.dest(path[, options])&#xff0c;其…

嵌入式进阶——矩阵键盘

&#x1f3ac; 秋野酱&#xff1a;《个人主页》 &#x1f525; 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 矩阵按键原理图按键状态检测单行按键状态检测多行按键状态检测 状态记录状态优化循环优化 矩阵按键 矩阵键盘是一种常见的数字输入…

Databend 开源周报第 146 期

Databend 是一款现代云数仓。专为弹性和高效设计&#xff0c;为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务&#xff1a;https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展&#xff0c;遇到更贴近你心意的 Databend 。 支持 Expressio…

网络编程基础知识

一、网络的相关概念 二、Ip 对于ipv4&#xff0c;是由4个字节&#xff08;32位&#xff09;表示&#xff0c;一个字节的范围是0~255&#xff0c;采用的是十进制表示ipv6的地址长度位128位&#xff0c;是ipv4的4倍&#xff0c;采用的是16进制表示查看ip地址&#xff1a;在命令行…