模拟驾驶能力输出,赋能客户提升稳定性信心

简介: 模拟驾驶能力输出,赋能客户提升稳定性信心

1.png

1.背景

我们技术服务团队经常会遇到这样的状况,随时随地收到紧急电话,开始紧张地排查问题,处理故障以及恢复服务。硬盘故障、网络不通、大量不到终态、水位高、流量激增等问题不胜枚举,也许因为一个很小的变更,因某种不可预期的场景,引起蝴蝶效应,导致了大面积的系统混乱、故障和服务中断,对客户的业务造成严重影响。故障往往带来巨大的损失,然而由于分布式系统的特性,各种不可预期的突发事件在所难免,单靠人力并不能够百分之百地阻止其发生。与其担惊受怕系统会出现什么样的问题,不如化被动为主动,提前模拟线上环境可能出现的各种情况,来检验我们的系统是否能做到容错,是否在出现问题时仍然具有对外提供服务的能力。
模拟驾驶的初衷就是通过实验性的方法,主动找出系统中的脆弱环节,让人们建立起复杂分布式系统在生产中抵御突发事件的信心。任何足够复杂的系统都不可避免地带有让人意想不到的暗债,暗债是现代软件系统逐步复杂化进程中的副产品,它会威胁系统的正常运转。模拟驾驶的意义就在于,它会帮助你发现暗债,从而在暗债变成系统的严重问题之前加以应对,避免造成损失。

2.模拟驾驶

模拟驾驶是GTS-SRE混合云团队遵循混沌工程实验原理,并融合团队内部多年高可用体系沉淀下来的经验而打造的一款技术服务,提供丰富的故障场景、异常仿真的实现,能够帮助分布式系统提升容错性和可恢复性,以期帮助更多的政府和企事业单位做好稳定性建设。

2.1基础服务内容

 

2.png

图1:模拟驾驶基础服务内容框架

2.1.1混沌工程课程培训

混沌工程学培训课程涉及三个专题,共八章,20小节的内容。课程从混沌工程学的理论出发,融合阿里内部实践,通过由混合云历史故障库和故障能力库中精炼总结得来的经典案例,深入浅出地解释了如何完成混沌工程实验,包括所需要面对的挑战、推进的准备项、采用的工具以及模拟驾驶的实施方法,是混沌工程学实践的入门课程。通过课程的学习,可以帮助用户达到以下的目标:

  • 了解混沌工程学基本的概念、原则、前提、作用以及应用;
  • 了解混合云在混沌工程学实践的工具包;
  • 了解具体实施混沌工程实验的方法;
  • 了解各场景的模拟驾驶演练操作方法;
  • 参与混合云混沌工程的社区共建。

2.1.2模拟驾驶工具包

  • 实验注入工具-Apsara Chaos Platform
    Apsara Chaos Platform(简称ACP)是混合云一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的冗余容错能力、故障隔离能力、可观测性,并且在企业上云或往云原生系统迁移过程中提供弹性能力和易用性能力的保障。ACP可支持丰富的异常仿真场景,包括边界异常仿真(如docker异常等)、应用层仿真(如进程假死、异常退出等)、系统层仿真(如CPU、内存、磁盘空间等系统资源消耗)、硬件层仿真(如网卡抖动、带外重启等),并且在异常场景编排的异常类型节点,可以对此模拟能力进行实例化。
  • 监控告警工具-TAM Alarm Center
    TAM Alarm Center(简称TAC)是SRE团队为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云快速发现、定位异常问题。目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效地提高了告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。
  • 故障诊断工具-SRE-CLI
    Site Reliability Engineer - Command-Line Interface(简称SRE-CLI)是一款黑屏化控制台的故障诊断工具,能够根据异常场景从场景库中匹配检查项进行自动诊断并确认异常原因,归档异常详细信息,最终给出处理建议。SRE-CLI可帮助混合云快速发现、定位异常问题的原因,提供从问题描述、故障定位及诊断、输出诊断报告、提供解决建议的全方位“问诊”服务。目前,云平台底座产品天基的40%问题已经能够通过SRE-CLI工具进行诊断定位,从而减少了人工手动排查的时间,有效地提高了故障处理效率,大幅提高项目运维质量,减少项目人力投入成本。
  • 巡检及问题诊断工具-铜雀
    铜雀专注于智能化巡检及问题诊断,是TAM和驻场服务团队日常工作中的首要工具。它能让TAM和驻场服务团队从日常繁琐的巡检工作中解放出来,将精力投入到更有价值的客户服务中去,通过打通云平台侧、租户侧及应用侧的信息,辅助应用运维及优化,并通过工具化手段提升现场问题分析定位的能力和速度。铜雀目前作为混合云企业版的标准输出产品,已经能够100%覆盖V3平台的局点。目前铜雀的功能主要是以巡检为中心,后续将逐渐将故障应急、高频变更、问题诊断能力补充上来,并将铜雀的基础能力开放出来,使产品、驻场、TAM等人员的经验不断沉淀到系统中,打造以铜雀为中心的运维生态圈。

2.2服务案例

2.2.1背景

某电力集团客户想验证云平台的高可用性以及阿里的故障应急能力,在沟通之后了解到SRE-TAM团队有专业完善的模拟驾驶能力,遂提出服务申请,邀请技术服务团队至业务现场进行赋能培训及演练服务。

2.2.2目标

技术服务团队希望通过本次服务提升客户对混沌工程这一理念的认知和对云平台的了解,同时帮助现场同学和客户提升故障的应急处理能力,提振平台稳定性信心。

2.2.3服务概述

  • 技术服务团队调研并收集项目现场信息;
  • 赋能客户,进行混沌工程培训课程的讲授(包括混沌工程概述、混合云混沌工具包介绍、模拟驾驶三个专题);

    3.png

    图2:客户现场进行赋能培训

  • 进行工具的准备及部署工作,在业务现场部署了ACP和SRE-CLI工具,对已部署的TAC工具进行了升级工作;
  • 客户提供了演练时间窗口,技术服务团队按照标准流程(前期检查、故障注入、告警查看、故障诊断&恢复)进行了五个场景的模拟驾驶演练;
  • 指导客户使用工具进行操作演练并答疑;

    image.png

    图3:客户现场指导操作并答疑

2.2.4成果

通过本次模拟驾驶的服务,加强了客户对混沌工程实验的认知和加深了客户对云平台高可用性的了解:

  • 通过手把手地指导并且协同客户一起从故障注入到故障发现最后到解决故障的实验全流程实践,客户对模拟驾驶的影响范围和爆炸半径有明显的体感,对混沌工程的原则有了一定的认知;
  • 模拟驾驶演示后,客户对云平台的自愈能力和健壮性表示深度认可,并且对后期进行常态化、机制化的演练意向比较强烈;
  • 客户很乐意参与混合云模拟驾驶的共建。

3.总结及思考

伟人说“实践是检验真理的唯一标准”,然而在开展模拟驾驶之旅的过程中,是无法一蹴而就地达到实验的最理想状态的,那我们可以按照怎样的路径去实施第一次模拟驾驶实验呢?
首先,所谓模拟驾驶的实验性是为了探索“未知”的风险,找到暗债,但是实践中不妨先从“已知”开始。通过对“哪里最可能出问题”的思考和讨论,我们评估出系统潜在的弱点和预期结果,这可以让你对演练的优先级有所把握:哪些潜在问题更有可能发生或后果更严重。团队可以通过记录并总结历史故障类型、发生频次以及对应的依赖项等,从而对“哪里最可能出错”有初步的认识。当你觉得某一项可能存在问题时,先从这类场景注入故障会是一个好的开始。
其次,在实验实施前我们需先创建一个假设,这会是一个很好的团队思维练习。通过讨论这个场景,你可以在运行它之前对预期结果进行假设,比如这个失败对客户、企业或对你的依赖项有什么影响?在运行第一个实验之后,你可能会遇到两个结果之一:验证了系统对引入的故障是否具有弹性,或者发现需要修复的问题。这两个结果都很好。如果是第一种情况,你增强了对系统及其行为的信心;如果是后者,你则在系统导致停机之前发现了问题。
最后,模拟驾驶实验主张“在离生产环境越近的地方进行实验越好越真实”,但我们认为从实际情况的角度来看,这取决于组织对这一理念的接受程度。那么让各方都比较放心的一种比较温和的实验路径是从线下逐渐走到生产。不过对于分布式系统而言,部署不同、流量不同都会带来不一样的结果,唯有在生产环境中进行实验才能真正验证,否则会大大地削弱这些实践的价值。
就如同人类要打疫苗才能免除未知的病痛,系统的稳定性建设也离不开模拟驾驶,希望我们的团队可以更多地将模拟驾驶技术能力输出,赋能更多的客户,来提升反脆弱性和系统稳定性的信心!

 

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务如何拆分,能解决哪些问题?

作者 | 修冶来源 | 阿里巴巴中间件头图 | 下载于ICphoto微服务在最近几年大受欢迎,很多公司的研发人员都在考虑微服务架构,同时,随着 Docker 容器技术和自动化运维等相关技术发展,微服务变得更容易管理,这给了微服务架…

Tair持久存储系列技术解读

简介: 阿里云数据库重磅发布自研Tair持久存储系列的产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。 Redis做为当今主流的…

Serverless X OpenKruise 部署效率优化之道

简介: 相信在不久的将来,SAE 的极致弹性,无论在弹性效率,弹性规模,还是智能精准等方面都会大放异彩。 作者 | 许成铭(竞霄) Serverless 作为云计算的最佳实践、云原生发展的方向和未来演进趋势…

重磅来袭 | 移动云城市峰会分论坛暨移动云TeaTalk青岛站 即将开启

随着大数据技术不断演进和应用持续深化,以数据为核心的大数据产业生态正在加速构建。6月10日,移动云城市峰会将在青岛举办。届时,“云数融通,驱动未来”分论坛暨移动云TeaTalk青岛站 也将同步重磅开启。分论坛将围绕移动云核心数据…

2020阿里云双11--0.73折起,爆款提前抢大促全攻略

2020阿里云双11大促活动于10月24日正式开启,此次双11阿里云将有哪些亮点活动,此篇文章将一网打尽。大家一定要关注,此文会一直更新到活动结束。 从活动页面来看,阿里云双11上云狂欢节活动分为三个阶段: 10月24日-10月…

linux共享软件_为什么 linux 要用 tar.gz,很少用 7z 或 zip?

因为 7z 和 zip 压缩格式都不能保留 unix 风格的文件权限,比如解压出个可执行文件要重新 chmod chown 才能恢复正常。而 tar 格式可以。而 tar 本身不提供压缩,无非就是把包括所有文件的內容和权限拼成一个文件而己,所以用另外如 gzip 格式压…

端应用研发进入云原生时代

简介: 随着技术的发展和各种用户端场景的涌现,业务前台形式变得更加多样,“面向多样化的端场景提供无缝的、一致的数字用户旅程”已经成为了新时代企业应用架构的关键目标,同时它也是当下大前端技术发展背后的核心业务牵引。基于阿…

关于卫星定位,你想知道的一切

简介: 本文将简要介绍卫星定位的原理和应用情况,方便大家对北斗、卫星定位有更多的了解。 5G和北斗,是国之重器。北斗作为卫星定位系统,目前在国际上已处于领先地位,而且已经渗透到我们工作和生活的方方面面。本文将简…

拯救运维工程师,数据链 DNA 来袭!

在《凤凰项目——一个IT运维的传奇故事》一书中讲述运维工程师的常态: A工程师:“是的,我们复制了你给的那个文件……是的,就是1.0.13版……你说那个版本是错的,这话是什么意思……什么?你什么时候把它改了…

jre for mac 删除_在 Mac 的 Docker Desktop 中运行 K8s

Docker Desktop for Mac 从 Docker Community Edition 18.06.0-ce-mac70 2018-07-25 版本起,添加了对 Kubernetes 的支持,可以方便的在 Mac 上运行一个单节点的 K8s 集群。在 Docker Desktop 的 Preferences 中的 Kubernetes 页面里,提供了一…

阳振坤:OceanBase 数据库七亿 tpmC 的关键技术

OB君:2020年9月25日,OceanBase在外滩大会举办的“数据库,新标杆,新征途”分论坛正式落幕,内容涵盖数据库的趋势探讨、分布式数据库的技术创新与行业应用,及国内数据库的发展与生态。欢迎持续关注本系列内容…

数百万台车联网设备同时在线0故障,中瑞集团的云原生探索之路 | 云原生Talk

简介: 在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战…

终止中台乱象 《2021年中国中台市场研究报告》隆重发布

2015年,阿里提出“大中台,小前台”的战略,帮助一线业务更敏捷地适应市场变化。随后,多家互联网巨头纷纷布局中台战略,中台概念由此全面打响。 通过中台,可以打通数据孤岛,实现快速响应、智能预…

Dubbo-go 源码笔记(一)Server 端开启服务过程

简介: 随着微服务架构的流行,许多高性能 rpc 框架应运而生,由阿里开源的 dubbo 框架 go 语言版本的 dubbo-go 也成为了众多开发者不错的选择。本文将介绍 dubbo-go 框架的基本使用方法,以及从 export 调用链的角度进行 server 端源…

华为在中国建立其全球最大的网络安全透明中心

2021年6月9日,华为最大的网络安全透明中心今天在中国东莞正式启用,来自GSMA、阿联酋、印尼的监管机构及英国标准协会、SUSE等机构代表出席并在活动上发言。借此机会,华为发布了《华为产品安全基线》白皮书,首次将产品安全需求基线…

浅析云控平台画面传输的视频流方案

简介: 本文将小结本次云控平台画面传输的视频流方案。 背景 ARC(高德车机云控平台)是一个基于车载设备业务深度定制的云控平台,通过该平台我们能够实现远程使用不同类型的车载设备。为了让远程使用者像在本地一样使用车载设备&am…

解读云原生基础设施

简介: 云原生是云计算领域的热点之一。就像 “一千个人眼里有一千个哈姆雷特”,大家对"云原生"的定义也见仁见智。本文将介绍云原生应用架构和生命周期管理的进化方向。 作者 | 易立 阿里云资深技术专家 导读:云原生是云计算领域的…

mysql al32utf8_Oracle 11g更改字符集AL32UTF8为ZHS16GBK

Oracle 9i更改字符集AL32UTF8为ZHS16GBKSQLgt; conn /as sysdba SQLgt; shutdown immediate; SQLgt; startup mount SQLgt; A首页 → 数据库技术背景:阅读新闻Oracle 11g更改字符集AL32UTF8为ZHS16GBK[日期:2011-04-26]来源:Linux社区作者&am…

共筑全场景智慧生态,华为HMS全球应用创新大赛火热开启

6月10日,2021华为HMS全球应用创新大赛(Apps UP)正式启动。此次大赛以“HMS Innovate For All”为主题,激励全球开发者集成华为HMS Core开放能力开发创新应用,打造全场景数字创新体验,为全球消费者带来全场景…

2020-11-06

一、背景介绍 (一)流平台通用框架 目前流平台通用的架构一般来说包括消息队列、计算引擎和存储三部分,通用架构如下图所示。客户端或者 web 的 log 日志会被采集到消息队列;计算引擎实时计算消息队列的数据;实时计算…