打造成功的SRE团队

一个成功的SRE团队可以为组织带来巨大价值,帮助组织高效完成价值交付。本文介绍了Mission Lane公司打造SRE团队的经验和实践。原文: Building a Successful SRE Team

alt
简介

当我加入Mission Lane时,是公司仅有的两名站点可靠性工程师(SRE)之一,而另一位就是我的老板,SRE团队的经理,后来成为了平台组织的主管。我们被要求组建一支拥有可观察性和开发者经验的SRE团队,从而开始了这一为期三年的旅程,建立了一个成功的SRE组织,并为Mission Lane带来巨大价值。如今SRE团队由四个人组成,支持250个微服务和130名开发人员,每天向各种环境发布数百个版本,每天产生近10亿次日志和跟踪。

SRE团队专注于以下事项:

  • 为Mission Lane开发者创建标准化helm chart
  • 管理自动分布式跟踪
  • 创建可观察性技术栈,每秒处理50万条日志和跟踪
  • 为应用自动化处理金丝雀发布,希望显著降低使用门槛
  • 托管依赖自动更新
  • 建立有用的服务目录

SRE团队还和姐妹团队(云平台工程(CPE)和DevSecOps(DSO))一起,建立了几乎完全自助服务的开发平台,开发人员只需要提交三个PR(以及一些关于命名的讨论),就可以完成从想法到生产的流程。

这也是我第二次参与建立成功的SRE团队(第一次是在Capital One),以下是我学到的四条经验教训,可以帮助我们建立成功的SRE组织。

  1. 专注于开发人员培训
  2. 专注于正确的抽象
  3. 专注于自助服务
  4. 用自动化取代工作
专注于开发人员培训

当我们花一整天时间研究某项技术或平台时,就能成为这方面的专家。而当我们成为某一技术领域的专家时,就会习惯平台的怪癖、问题和边缘情况。此外,我们很快就会遇到高级用户问题[1],并且希望尽可能多进行自定义。我们确切知道什么可用,系统如何工作/如何连接,并且对事物如何工作有很好的心理模型。

但SRE的客户是开发人员,他们专注于通过开发服务交付业务价值。开发团队有不同层次的工程成熟度,使得他们有能力关注可靠性、工具等,而非只是直接的业务需求。他们需要能够尽可能快速、轻松的交付价值,同时不损害安全性、可靠性或可伸缩性。因此开发人员培训至关重要。

在Mission Lane有中心化SRE团队,支持大约20个产品团队,拥有大约250个微服务。我们每个季度都会选择两到四个产品团队,将SRE嵌入团队一个月。在这个月里,SRE需要关注项目健康状况检查清单,以保持目标专注,但主要目标是培训开发人员,了解开发人员如何与平台互动,了解开发人员遇到的所有小问题,并通过授之以渔来帮助他们更轻松的工作。以下是一些SRE可以帮助解决的问题:

  1. 修复对某些特定非关键(但非常恼人的)端点不起作用的跟踪
  2. 帮助开发人员了解使用 Flagger [2]和Istio的金丝雀版本如何工作
  3. 帮助开发人员添加仪表板,创建警报,调整或抑制乱七八糟的告警
  4. 帮助开发人员能够从本地部署到开发集群

这是我们成立SRE团队一年后开始的项目,非常成功。开发人员喜欢与SRE进行简短、集中的交互。SRE与产品团队建立了联系,向我们展示了开发人员遇到的各种问题或关注点,并且帮助我们构建工程组织的一般知识。

专注于正确的抽象

DevOps文化转型主要集中在"左移"。随着组织成熟,我们意识到也需要下移[3]。我们需要编写正确的抽象,帮助团队用更少的资源做更多的事情。

在Mission Lane的早期,我们的Kubernetes集群上没有抽象。当时,我们有一个非常强大的基于ArgoCD、GKE和CNRM的GitOps流水线。但开发人员需要手工编写k8s清单,然后通过ArgoCD将其应用到k8s集群中。虽然这会导致大量重复的YAML,但真正的问题是当我们需要应用大规模更新时。需要为所有部署设置安全上下文吗?需要换一个新的Ingress吗?想要应用环境变量或注释吗?我们不得不编辑数百个yaml文件。虽然其中一些可以通过编程语言自动化,但社区已经解决了这个问题。

大约在SRE团队成立9个月后,我们发布了ML Service Helm Chart的1.0.0版本。这个chart最终被Mission Lane 95%的服务所使用,并且出现了数百个版本。它允许团队在我们的集群中可靠、安全的启动和运行,允许极端定制,在大多数情况下遵循k8s API规范,完全允许重写所有设置,同时提供相同的默认值,以促进良好的应用健康状况和实践。

这个helm chart使我们能够为整个组织解决问题。当我们发现需要添加设置时,可以为整个组织发布带有更新配置的新版本helm chart。新版本严格遵循"Don't Break User Space"原则,带有大量测试并自动管理非兼容API的更改。

这种下移而不是左移的范式出现在工具、我们编写的抽象以及我们谈论开发人员的方式中。把他们当作自己领域的专家,认识到他们可能不是你领域的专家,看看你能怎么帮助他们以自助的方式获得成功。

专注于自助服务

SRE团队应该能够成为工程组织的力量倍增器。如果必须为每个产品团队雇佣一个SRE,就意味着失败。专注于允许开发人员做出自助决策,并且只在出现问题时才来寻求帮助,这可以使力量倍增。亚马逊和谷歌不会强迫我们每次想要开启一项服务时都与技术支持沟通,也不会强迫我们在发布新产品时都与工程师沟通。相反,他们通过API和UI使我们能够自助服务,只有在无法解决问题时才会与他们交谈。如果我们编写了良好的文档并拥有直观的流程/API,那就可以帮助无数开发人员,而不用不得不与每个开发人员进行沟通。

这种理念在SRE团队成立之前就存在于Mission Lane。在创建SRE时,底层GKE集群和自动化工具非常好,这是CPE团队的功劳。但是专注于自助服务让我们能够执行办公时间模式(office hours model),即开发者可以每周来一次并提出问题,其他情况我们可以通过slack支持频道,让开发者能够提出问题并获得答案。

使用允许开发人员与集群和服务进行安全交互的工具,可以确保流程在不限制选择的情况下不会出现错误配置。当问题出现时,请确保评估流程或工具,看看哪里可以做得更好。信任你的开发者,开发者就像用户一样,他们很少故意做错事,出问题时可能只是有一个xy状况[4]

使用能够在相同位置快速给出反馈的工具。在早期,CPE决定将PR作为所有反馈的中心。使用主线开发模式[5]并让所有工具与PR交互意味着有一个一致的心智模型,团队可以只通过代码所有者和评审进行自助服务。几乎平台团队引入的每个工具都使用PR作为界面机制,极大提高了开发人员的速度和反馈。

用自动化取代工作

消除重复劳动[6]是SRE的关键要素,是这份工作的基础,也是支撑这份工作的哲学。如果一遍又一遍重复做同样的任务,每次纠正同样的问题,或者甚至编写非常好的运行手册[7],都表明你没有消除足够的重复劳动。虽然机器不应该提供审批,但几乎所有其他工作都可以自动化。打开某些PR,模板化repo和文件,甚至响应某些错误都可以自动化。

这是SRE在Mission Lane的核心原则,努力使自己尽可能自动化。这意味着使用Cortex.io这样的工具来构建模板和记分卡,编写自己的数据库分析器来帮助团队调整连接设置和数据库大小,编写自动修复Elasticsearch问题的工具,或者在PR中用现成的分析器来帮助捕获常见问题,我们努力消除做特定任务的需要,从而使我们能够专注于更高层次和更大组织范围的问题,同时还让我们可以基于有限数量的SRE来扩展和支持快速变化的开发组织。


结论

建立成功的SRE团队是困难的。需要非常优秀的工程师,他们知道如何专注于正确的问题,并且是优秀的沟通者。但这一切最终都是值得的,SRE团队将成为整个组织的力量倍增器,帮助团队减少意外事件、改善开发人员体验、提高代码质量。只需记住:

  1. 关注于开发人员培训。提高开发人员的知识和期望会带来巨大好处。
  2. 专注于正确的抽象。下移,而非左移。抽象掉那些对客户不重要的东西。
  3. 专注于自助服务。开发人员应该能够完全自主的与平台进行交互,任何标准操作都不需要和SRE交谈。
  4. 让自动化帮助我们摆脱工作。继续努力,不要自满。推动不断改进自动化,这样就可以做新的和有趣的事情!

你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。为了方便大家以后能第一时间看到文章,请朋友们关注公众号"DeepNoMind",并设个星标吧,如果能一键三连(转发、点赞、在看),则能给我带来更多的支持和动力,激励我持续写下去,和大家共同成长进步!

参考资料

[1]

The power user problem: https://thesocietypages.org/cyborgology/2015/09/07/the-power-user-problem

[2]

Istio progressive delivery: https://docs.flagger.app/tutorials/istio-progressive-delivery

[3]

Richard Seroter on shifting down vs shifting left: https://cloud.google.com/blog/products/application-development/richard-seroter-on-shifting-down-vs-shifting-left

[4]

The XY Problemm: https://xyproblem.info

[5]

Trunk Based Development: https://trunkbaseddevelopment.com

[6]

Eliminating toil: https://sre.google/sre-book/eliminating-toil

[7]

Stop Writing Great Runbooks: https://staysaasy.com/software/2022/02/12/runbooks.html

- END -

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/607449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时序预测 | Matlab实现GJO-VMD-LSTM金豺-变分模态分解-长短期记忆网络时间序列预测

时序预测 | Matlab实现GJO-VMD-LSTM金豺-变分模态分解-长短期记忆网络时间序列预测 目录 时序预测 | Matlab实现GJO-VMD-LSTM金豺-变分模态分解-长短期记忆网络时间序列预测预测效果基本介绍模型设计程序设计参考资料 预测效果 基本介绍 Matlab实现GJO-VMD-LSTM金豺-变分模态分…

PyQT5实现图像处理应用(含Windows7下完整打包方案)

目录 1、任务概述2、环境安装2.1 创建虚拟环境2.2 安装依赖库 3、程序开发3.1 框架搭建3.2 读取图像3.3 图像处理 4、打包部署5、小结 1、任务概述 本篇博文将通过PyQT5来实现一个简单的图像处理应用,并完成打包部署。 本文开发平台:Windows10 64位系统…

如何找回删除的Word文档?多方法供您选择

在日常生活和工作中,我们经常使用Microsoft Word来创建、编辑和保存文档。然而,有时候我们会不小心删除了重要的Word文档,导致无法挽回的损失。幸运的是,有一些方法可以帮助我们找回已删除的Word文档。本文将介绍一些常用的方法供…

Vue2:通过ref获取DOM元素

一、场景描述 我们在页面的开发过程中&#xff0c;经常需要操作dom元素&#xff0c;来实现我们需要的效果。 以往js中&#xff0c;我们是通过给dom添加id&#xff0c;然后&#xff0c;通过js代码document来获取这个dom 简写代码案例&#xff1a; <h2 id"test"&…

何为算法之空间复杂度

前言 不知前面所讲的算法的十大特征你是否记住了呢&#xff1f;其实除了这十大特征之外&#xff0c;算法还有两个衡量标准。 不同的问题需要使用不同的算法作为策略&#xff0c;不同的算法也可能占用不同的时间和空间来完成相同的任务&#xff0c;这时候&#xff0c;对算法的选…

【Docker】可以将TA用于什么,简单了解下

欢迎来到《小5讲堂》&#xff0c;大家好&#xff0c;我是全栈小5。 这是是《Docker容器》序列文章&#xff0c;每篇文章将以博主理解的角度展开讲解&#xff0c; 特别是针对知识点的概念进行叙说&#xff0c;大部分文章将会对这些概念进行实际例子验证&#xff0c;以此达到加深…

RabbitMQ(十一)队列的扩展属性(Arguments)

目录 一、简介二、队列扩展属性清单三、代码示例3.1 实现方式一&#xff1a;channel.queueDeclare()3.2 实现方式二&#xff1a;QueueBuilder.build() 一、简介 RabbitMQ 允许用户在声明队列、交换机或绑定时设置 扩展属性&#xff08;Arguments&#xff09;&#xff0c;这些扩…

c++语言基础19-洗盘子(栈)

题目描述 在餐厅里&#xff0c;洗盘子的工作需要使用到栈这种数据结构。假设你手里有一个盘子堆放区。现在需要模拟洗盘子的过程&#xff0c;每个盘子都有一个编号。 盘子堆放区操作说明&#xff1a; 1. 当操作为 1 时&#xff0c;表示从盘子堆放区拿走顶部的盘子清洗。 2. 当…

数据库管理-第130期 JSON二元性(20240109)

数据库管理130期 2024-01-09 第130期 JSON二元性&#xff08;20240109&#xff09;1 简介2 关系型表和JSON存储的优劣3 Oracle JSON关系型二元性视图总结 第130期 JSON二元性&#xff08;20240109&#xff09; 上周&#xff0c;又双叒飞了一趟上海&#xff0c;也是2024年第一飞…

LeetCode-字符串转换整数atoi(8)

题目描述&#xff1a; 请你来实现一个 myAtoi(string s) 函数&#xff0c;使其能将字符串转换成一个 32 位有符号整数&#xff08;类似 C/C 中的 atoi 函数&#xff09;。 函数 myAtoi(string s) 的算法如下&#xff1a; 读入字符串并丢弃无用的前导空格 检查下一个字符&…

无线网卡怎么连接台式电脑?正确操作步骤分享!

“我在使用电脑时经常都需要用到网络&#xff0c;请问大家在使用无线网卡时怎么将它与台式电脑进行连接的呢&#xff1f;” 使用电脑的用户在进行网上冲浪时都需要先连接网络。如果不想使用网线&#xff0c;无线网卡不仅可以为用户提供网络服务&#xff0c;在使用时该更加灵活和…

springCould中的gateway-从小白开始【9】

目录 1.&#x1f35f;网关是什么 2.&#x1f37f;gateway是什么 3.&#x1f95a;gateway能什么 4.&#x1f32d;核心概念 5.&#x1f9c2;工作流程 6.&#x1f9c8;实例 7.&#x1f953;gateway网关配置的方式 8.&#x1f373;配置动态路由 9.&#x1f9c7;pred…

2022 年全国职业院校技能大赛高职组云计算赛项试卷部分解析

2022 年全国职业院校技能大赛高职组云计算赛项试卷部分解析 【赛程名称】高职组-云计算赛项第一场-私有云【任务 1】私有云服务搭建[10 分]【题目 2】Yum 源配置[0.5 分]【题目 3】配置无秘钥 ssh[0.5 分]【题目 4】基础安装[0.5 分]【题目 5】数据库安装与调优[0.5 分]【题目 …

yolo v7支持的设备

将一个深度学习模型&#xff08;在这里是YOLOv7&#xff0c;一个目标检测模型&#xff09;从PyTorch导出到不同的格式&#xff0c;以便在不同平台上进行推理&#xff08;inference&#xff09;。列出的方法包括&#xff1a; PyTorch 转 CoreML&#xff08;适用于 macOS/iOS&am…

Hystrix服务熔断机制

熔断机制 熔断机制是应对雪崩效应的一种微服务链路保护机制&#xff0c;当系统链路中的某个微服务出现错误不可用或者响应时间太长的时候就会进行服务的降级&#xff0c;进而熔断该服务的调用&#xff0c;快速返回熔断的响应信息。当检测到该节点微服务调用正常后&#xff0c;…

Ansible自动化运维(二)ad-hoc 模式详解

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

PLC期末速成——顺序功能图转梯形图

一、根据顺序功能图写出梯形图程序 顺序功能图&#xff1a; 梯形图&#xff1a; 1、程序段1&#xff0c;系统运行标志M0.0的启-保-停控制电路。 2、程序段2&#xff0c;PLC上电与逆行&#xff0c;初始化脉冲M1.0激活初始化步M2.0。 3、程序段3&#xff0c;当M2.0初始化步为活…

jupyter内核错误

1、在dos窗口输入以下命令激活环境&#xff1a;anaconda activate 【py环境名&#xff0c;比如py37】&#xff08;目的是新家你一个虚拟环境&#xff09; 2、在虚拟环境py37下安装jupyter notebook&#xff0c;命令&#xff1a;pip install jupyter notebook 3、安装ipykerne…

Unity C# 枚举多选

枚举多选 &#x1f96a;例子&#x1f354;判断 &#x1f96a;例子 [System.Flags]public enum TestEnum{ None 0,Rooms 1 << 1,Walls1<<2,Objects1<<3,Slabs 1 << 4,All Rooms|Walls|Objects|Slabs}&#x1f354;判断 TestEnum test TestEnum.R…

ArcGIS中style文件的导入及lyr的文件的使用

地图是地理信息的重要载体&#xff0c;科学的配色方案可以有效地传递地理信息&#xff0c;而美观协调的配色方案也是我们进行地图符号化设计的重要内容。在日常工作中&#xff0c;我们常常苦恼于自带颜色不能满足需要或是希望使用现成的颜色模板&#xff0c;自定义配色方案导入…