站点可靠性工程 (SRE)

随着世界各地的组织努力开发安全、可靠、可扩展且可持续的 IT 基础架构,对高效基础架构监控和管理的需求日益增长,企业正在用不可扩展的遗留架构换取现代解决方案,在尖端技术的推动下,这些使基础设施管理过程更加顺畅和轻松,其中一项技术是站点可靠性工程 (SRE),它有助于扩展基础结构管理流程。

什么是 SRE

站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法,组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠,SRE 特别提高了可扩展软件系统的可靠性,因为使用软件管理大型系统比手动管理数百台计算机更具可持续性。

SRE 专注于开发和管理可持续且可靠的网络,以提供无缝的最终用户体验,同时确保基础设施正常运行。

为什么站点可靠性工程很重要

站点可靠性描述了应用程序提供给最终用户后的稳定性和服务质量。如果未发现技术问题,软件维护有时会影响软件的可靠性。例如,当开发人员进行新的更改时,可能会无意中影响现有应用程序,并导致软件在某些使用案例中崩溃。

以下是站点可靠性工程 (SRE) 实践的一些好处:

  • 增强合作
  • 客户体验增强
  • 操作规划得到改进

增强合作

SRE 改善了开发和运营团队之间的协作。开发人员通常必须对应用程序进行快速更改,以发布新功能或修复关键错误。另一方面,运营团队必须确保服务无缝交付,因此,运营团队需要使用 SRE 实践来密切监控每一次更新,并及时响应因变更而出现的任何问题。

客户体验增强

组织使用 SRE 模型来确保软件错误不会影响客户体验。例如,软件团队使用 SRE 工具来实现软件开发生命周期自动化,这样可以减少错误,意味着团队可以将新功能开发优先于漏洞修复。

操作规划得到改进

SRE 团队接受软件失败的现实可能性。因此,团队需要计划适当的事故响应,以尽量减少停机时间对业务和最终用户的影响,其还可以更好地估计停机成本,并了解此类事故对业务运营的影响。

SRE 如何使基础架构受益

在快节奏的环境中,例如企业 IT 基础架构,可能会发生大量事件和事件,网络管理员只能做这么多来管理一切。随着越来越多的企业过渡到面向云的方法,甚至是云原生的方法,对 SRE 的需求迫在眉睫,通过实施 SRE 并自动执行与网络管理相关的单调任务,IT 管理员可以优化其基础架构以提高性能。

以下是在基础架构中采用 SRE 的一些主要好处:

  • 减少停机时间:在基础架构中实施 SRE 有助于最大程度地减少停机时间。SRE 的主要目标是自动执行基础设施管理中繁琐而困难的任务,通过使用集成的开发和 IT 运营方法,IT 管理员可以更好地协同工作,尽可能减少停机时间。
  • 增强的最终用户体验:采用 SRE 可帮助 IT 管理员增强其最终用户体验。任何新的问题修复或产品更新都可以使用 SRE 立即推出,而不是传统的开发和运营模型,后者可能需要一些时间才能实施。
  • 不易出现人为错误:企业数据中心中大约 70% 的网络中断是由人为错误引起的。通过在基础架构中采用 SRE,组织可以自动执行其繁琐的任务,从而减少手动干预并节省其他关键任务的时间。
  • 改进了缩放:基础设施上的负载通常是动态的,并受消费者需求的影响。这就需要高度敏捷、可靠且可以随时扩展的基础架构。在 SRE 的帮助下,组织可以轻松扩展其基础架构,因为过渡是以快节奏但以安全为导向的方式进行的。
  • 全面了解基础架构:SRE 开发背后的软件工程技术不仅可以帮助管理员监控基础架构的预定义指标,还可以帮助管理员观察网络,留意潜在问题,并找到问题的根本原因,这为组织提供了对其基础架构的更高可见性。
  • 优化业务运营成本:通过自动化所有单调的操作流程,SRE 可帮助组织降低间接成本。此外,SRE 还有助于基础架构保持符合服务级别协议 (SLA),从而进一步降低业务成本。

在这里插入图片描述

SRE 如何帮助组织遵守 SLA

SLA 是服务提供商必须满足的一组条件(通常是特定时间段内的服务质量),未能满足既定要求可能会导致处罚和负面品牌声誉,在尝试实现业务目标时,这可能被证明是一个主要障碍,通过将 SRE 部署到基础架构,管理员可以全面了解网络,跟踪关键指标,并确保基础架构符合 SLA。

以下是与 SLA 关联的一些关键指标:

  • 服务级别目标 (SLO):SLO 是服务提供商承诺根据 SLA 为其客户提供的服务质量。通过定义 SLO,服务提供商可以量化他们有义务提供的服务质量。这有助于他们决定是使基础结构更可靠并将更新保持在最低限度,还是通过部署频繁更新来保持与需求保持一致,从而拥有快节奏的基础结构。使用 SRE,组织可以根据其 SLA 中设置的 SLO 优化其基础结构。
  • 服务级别指标 (SLI):SLI 是基础架构的可用性指标。SLI 始终经过优化以满足合同规定的 SLO。如果 SLI 低于 SLO,则可能导致违反 SLA。通过部署 SRE,组织可以增强对其基础架构的控制,以帮助他们实现较长的正常运行时间,最终帮助 SLI 满足设定的 SLO。
  • 错误预算:错误预算是客户端在恢复服务之前可以忍受的最大停机时间。通过在 SLA 中指定服务质量,组织可以更好地评估其基础结构的未来目标。借助 SRE,组织可以充分了解其基础架构,设置适当的错误预算,并决定基础架构必须提供的可靠性量,同时将其扩展到最大以提高性能。

IT 基础架构监控工具

OpManager Plus是一个全面的IT运营管理工具包,可帮助管理员监控,观察和管理整个基础架构。使用此工具,管理员可以:

  • 有效监控基础架构:通过持续跟踪网络的指定指标来监控整个基础架构,从而确保正常运行时间。例如自适应阈值,预测性能趋势和预测报告。
  • 监控网络流量和带宽使用情况:提高对基础架构流量和带宽使用模式的可见性,并对其进行优化以获得更好的性能。使用网络预测和网络取证对基础设施管理采取积极主动的立场。
  • 获得端到端基础架构可见性:除了监控和管理您的基础架构外,还必须拥有深入的可见性,而不仅仅是设备。通过鸟瞰基础架构,提前防范恶意设备检测和 IP 冲突等麻烦,甚至要考虑电线、电缆和接口等微观元素。
  • 管理防火墙和 VPN 以保持安全合规性:通过获取有关基础架构潜在安全漏洞的全面报告,自动执行合规性审核并增强基础架构安全性,领先一步,防范基础架构的安全漏洞。
  • 管理基础架构中的配置更改:制定标准操作程序 (SOP),并安排自动设备配置备份。监控基础架构是否存在任何配置违规,并通过应用适当的反措施立即纠正它们,始终遵守行业标准和政府框架。
  • 监控和增强最终用户体验:全面了解业务关键型应用程序的性能和最终用户体验,识别并根除任何潜在的瓶颈,方便地过渡到更面向云的基础架构,以跟上竞争对手的步伐并实现业务目标,同时不影响所提供的最终用户体验的质量。

OpManager Plus是一个集成的网络性能管理解决方案,它免去了对多种监控工具的需求,为管理员提供整个网络的更高的可见性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/20376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot + minio实现分片上传、秒传、续传

什么是minio MinIO是一个基于Go实现的高性能、兼容S3协议的对象存储。它采用GNU AGPL v3开源协议,项目地址是https://github.com/minio/minio。 引用官网: MinIO是根据GNU Affero通用公共许可证v3.0发布的高性能对象存储。它与Amazon S3云存储服务兼容…

C++设计模式之访问者模式

C访问者设计模式 文章目录 C访问者设计模式什么是设计模式什么是访问者设计模式该模式有什么优缺点优点缺点 如何使用 什么是设计模式 设计模式是一种通用的解决方案,用于解决特定的一类问题。它是一种经过验证的代码组织方式,可以帮助开发人员更快地实…

Linux——平台设备及其驱动

目录 前言 一、平台设备 二、平台驱动 三、平台驱动简单实例 四、 电源管理 五、udev 和驱动的自动加载 六、使用平台设备的LED 驱动 七、自动创建设备节点 前言 要满足 Linux 设备模型,就必须有总线、设备和驱动。但是有的设备并没有对应的物理总线&#x…

互联网被裁的程序员,未来有什么方向呢?

做了一份程序员“失业”后的自救方向汇总: 接下来挨个聊聊。 产品经理 都说产品和技术总是相爱相杀,不过产品和技术的关系也是最近的。 无论是产品转技术,还是技术转产品,相对来说都是比较容易的,很多底层逻辑是互通…

后端通过CorsRegistry对象配置了全局跨域,但是前端仍然报CORS跨域错误

后端通过CorsRegistry配置了全局跨域,但是前端仍然报CORS跨域错误 问题背景 在实现登录功能时,我先是通过CorsRegistry配置了全局跨域,然后配置了一个登录拦截器后前端就报错CORS跨域错误 问题原因 前置知识 首先我们来了解一下什么是跨域错误…

无脑入门pytorch系列(一)—— nn.embedding

本系列教程适用于没有任何pytorch的同学(简单的python语法还是要的),从代码的表层出发挖掘代码的深层含义,理解具体的意思和内涵。pytorch的很多函数看着非常简单,但是其中包含了很多内容,不了解其中的意思…

网络安全策略应包含哪些?

网络安全策略是保护组织免受网络威胁的关键措施。良好的网络安全策略可以确保数据和系统的保密性、完整性和可用性。以下是一个典型的网络安全策略应包含的几个重要方面: 1. 强化密码策略:采用强密码,要求定期更换密码,并使用多因…

Java类集框架(一)

目录 1.Collection集合接口 2.List 接口 (常用子类 ArrayList ,LinkedList,Vector) 3.Set 集合 接口(常用子类 HashSet LinkedHashSet,TreeSet) 4.集合输出(iterator , Enumeration) 1.Collection集合接口 Collection是集合中最大父接口,在接口中定义了核心的…

vue中各种混淆用法汇总

✨在生成、导出、导入、使用 Vue 组件的时候,像我这种新手就会常常被位于不同文件的 new Vue() 、 export default{} 搞得晕头转向。本文对常见用法汇总区分 new Vue() 💦Vue()就是一个构造函数,new Vue()是创建一个 vue 实例。该实例是一个…

Redis - 缓存的双写一致性

概念: 当修改了数据库的数据也要同时更新缓存的数据,缓存和数据库的数据要保持一致 那为什么会有不一致的情况呢? 如果不追求一致性,正常有两种做法 先修改数据库 后删除旧的缓存先删除旧的缓存 再修改数据库 我们以先删除旧的…

html学习9(脚本)

1、<script>标签用于定义客户端脚本&#xff0c;比如JavaScript&#xff0c;既可包含脚本语句&#xff0c;也可通过src属性指向外部文件。 2、JavaScript最常用于图片操作、表单验证及内容动图更新。 3、<noscript>标签用于在浏览器禁用脚本或浏览器不支持脚本&a…

华为数通HCIP-PIM原理与配置

组播网络概念 组播网络由组播源&#xff0c;组播组成员与组播路由器组成。 组播源的主要作用是发送组播数据。 组播组成员的主要作用是接收组播数据&#xff0c;因此需要通过IGMP让组播网络感知组成员位置与加组信息。 组播路由器的主要作用是将数据从组播源发送到组播组成员。…

第七篇:k8s集群使用helm3安装Prometheus Operator

安装Prometheus Operator 目前网上主要有两种安装方式&#xff0c;分别为&#xff1a;1. 使用kubectl基于manifest进行安装 2. 基于helm3进行安装。第一种方式比较繁琐&#xff0c;需要手动配置yaml文件&#xff0c;特别是需要配置pvc相关内容时&#xff0c;涉及到的yaml文件太…

软件测试面试真题 | 什么是PO设计模式?

面试官问&#xff1a;UI自动化测试中有使用过设计模式吗&#xff1f;了解什么是PO设计模式吗&#xff1f; 考察点 《page object 设计模式》&#xff1a;PageObject设计模式的设计思想、设计原则 《web自动化测试实战》&#xff1a;结合PageObject在真实项目中的实践与应用情…

Shell脚本学习-MySQL单实例和多实例启动脚本

已知MySQL多实例启动命令为&#xff1a; mysqld_safe --defaults-file/data/3306/my.cnf & 停止命令为&#xff1a; mysqladmin -uroot -pchang123 -S /data/3306/mysql.sock shutdown 请完成mysql多实例的启动脚本的编写&#xff1a; 问题分析&#xff1a; 要想写出脚…

mybatis-plus 用法

目录 1 快速开始 1.1 依赖准备 1.2 配置准备 1.3 启动服务 2 使用 2.1 实体类注解 2.2 CRUD 2.3 分页 2.4 逻辑删除配置 2.5 通用枚举配置 2.6 自动填充 2.7 多数据源 3 测试 本文主要介绍 mybatis-plus 这款插件&#xff0c;针对 springboot 用户。包括引入&…

Redis 高可用:主从复制、哨兵模式、集群模式

文章目录 一、redis高可用性概述二、主从复制2.1 主从复制2.2 数据同步的方式2.2.1 全量数据同步2.2.2 增量数据同步 2.3 实现原理2.3.1 服务器 RUN ID2.3.2 复制偏移量 offset2.3.3 环形缓冲区 三、哨兵模式3.1 原理3.2 配置3.3 流程3.4 使用3.5 缺点 四、cluster集群4.1 原理…

带头单链表,附带完整测试程序

&#x1f354;链表基础知识 1.概念&#xff1a;链表是由多个节点链接构成的&#xff0c;节点包含数据域和指针域&#xff0c;指针域上存放的指针指向下一个节点 2.链表的种类&#xff1a;按单向或双向、带头或不带头、循环或不循环分为多个种类 3.特点&#xff1a;无法直接找到…

最近写了10篇Java技术博客【SQL和画图组件】

&#xff08;1&#xff09;Java获取SQL语句中的表名 &#xff08;2&#xff09;Java SQL 解析器实践 &#xff08;3&#xff09;Java SQL 格式化实践 &#xff08;4&#xff09;Java 画图 画图组件jgraphx项目整体介绍&#xff08;一&#xff09; 画图组件jgraphx项目导出…

安防视频综合管理合平台EasyCVR可支持的视频播放协议有哪些?

EasyDarwin开源流媒体视频EasyCVR安防监控平台可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析等能力。 视频监控综合管理平台EasyCVR具备视频融合能力&#xff0c;平台基于云边端一体化架构&#xff0c;具有强大的…