对于系统/应用运维人员,日常工作中需要保证系统/应用的可用性、稳定性和关注系统/应用的性能表现。为了帮助IT人员更好地管理和优化企业的系统和应用,我们引入了三大关键能力:可用性管理、性能管理和容量管理。这些能力不仅能够帮助IT人员发现问题,还能提供丰富的数据和分析,以支持日常运维决策。让我们一起探索这些能力,提升企业IT人员的运维效率,保障系统稳定性和性能表现!
可用性管理
服务水平目标(SLO)指定了服务可靠性的目标水平。由于SLO是做出以数据为依据的可靠性决策的关键,因此它们是SRE实践的核心。
SLO是可靠性决策的关键因素,它的存在价值是:及时报警,发现影响SLI指标的异常。并且,产生的SLO告警是SRE和研发共同关注的告警信息。它的根本目标是持续性提高产品质量,缩短故障处理时长,保证平台的可靠性。
因此,实践SRE工程的第一步是计算出正确的可用性是多少,以此定量出实际的服务可靠性水平离SLO到底有多远。
我们期望能看到每个业务线,包括基础设施的周可用性、月可用性和年可用性,并且和年度目标的差距有多少。
配置
可用性管理的配置对象时服务,因此,我们可以打开可用性管理微应用,进入设置功能:进入特定的应用系统,选择核心服务,并且设置SLO值。
每个服务都需要关联一个拨测任务,以detect_code为考核指标,计算此服务的可用性分数:
性能管理
在当今数字化时代,用户体验往往是企业成功的关键。随着用户对应用性能的期望不断提高,优化应用性能已成为企业提升用户满意度和保持竞争力的重要举措。性能管理小产品,提供系统/应用的性能管理视图,以CMDB系统/应用树来呈现性能状态,帮助IT人员全面了解和优化系统性能,从而提升用户满意度和忠诚度。
特性介绍
-
Apdex标准引入:不同应用系统的特征不同,对性能的要求也不一样。企业往往缺乏统一的系统性能评估手段,导致性能认知及系统建设方法不统一。为此,我们引入Apdex标准,构建面向系统/应用服务的统一标准的性能评估体系。
-
系统/应用性能排行看板:提供了系统/应用两个维度的性能排行看板,不仅可以快速察觉性能瓶颈所在系统/应用,也能保证性能问题可进一步排查。从业务到技术,从全局(系统级别)到局部(接口级别),层层分析定位,最终有效定位性能木桶短板。
-
全面的性能分析:我们的性能管理系统不仅提供简单的性能数据,还能提供深度的性能分析。通过性能指标和trace数据的综合分析,帮助企业发现系统性能的各个方面,从而为性能优化提供更全面的参考。
-
实时监控与预警:结合告警事件中心和服务可观测的能力,我们的系统能够实时监控系统/应用的性能指标,并支持设定相应的告警规则。一旦系统性能出现异常,将立即告警,以便及时采取措施解决问题,保障应用的稳定性和性能体验。
如何配置
点击进入「Apdex配置」页面,按如下步骤进行配置
Apdex计算规则如下图,配置页面内也有规则详细介绍,可随时点击查看。
容量管理
IT部门面临着越来越复杂的业务场景困难和挑战,这些都将最终需要转换为IT资源的支撑,因而对IT资源的需求和规划愈发重要。此时容量管理就起到了关键的作用,帮助识别资源瓶颈与富余情况,为IT技术负责人统一的IT资源业务支撑评估规划及成本评估与控制等活动提供有力依据。
特性介绍
-
以系统视角立体化容量评估:平台提供系统及服务视角组建的容量视图,符合IT部门惯常的组织和维护方式,系统级别颗粒度能较为全面了解资源情况,服务级别则提供更精细运维管理维度定位具体容量问题。
-
高负载和低负载容量配置:在容量分析维度中,不仅需要洞悉可能影响业务运行的高负载容量情况,也需要了解不符合经济效益的低负载容量情况,因而平台提供对服务设置高低负载阈值,因而也可以在系统级别分析中分别以最低和最高的服务负载汇聚为系统的最小和最大容量指标。
-
结合性能评分做容量分析:权衡资源容量是否满足业务需求,除了看资源的绝对占用容量,还要综合性能评分进行综合评估,因而平台将与【性能管理】能力串联,提供性能评分综合进行容量评估。
如何配置
① 进入【服务容量配置】可管理纳入容量计算的系统。
② 添加系统后可配置纳入计算的服务范围。
③ 针对不同的服务,可为主机/容量类型的服务配置纳入容量计算的指标和阈值。