演进实录|不同阶段的企业如何搭建监控体系?

简介: 企业业务发展越来越迅速,对 IT 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。 今天我们好好聊一下工具选型与平台搭建思路与实践关键点。来看看阿里云会给出如何的最佳实践!

作者|涯海

在陪伴众多企业共同经历业务上云与云上原生之后,我们可以看到每个企业的运维监控体系搭建过程都十分艰辛。这是由于企业业务发展迅速,对 IT 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。尽管不同阶段不同规模的企业需要面对各种各样现实问题,但仍然有些最佳实践有迹可循,今天我们好好聊一下工具选型与平台搭建思路与实践关键点。

工具选型与平台搭建必然趋势

要特别说明的是,监控平台不是随便下载一个开源监控工具就可以,它需要根据监控的业务特点进行整合与二次开发,以达到与实际业务情况相吻合。经过大量实践后,我们发现企业普遍存在的监控体系需求与发展方向:

  • 自动识别与采集

云原生带来了跨技术栈与高动态的技术架构。因此面向复杂多变的被监控环境,采集器尽可能做到对环境的自动识别,对指标的自主采集成为一切的开始。数据都无法采集,如何监控?

  • 数据管理能力不断强化

云、容器和微服务的出现使被监控的对象数量增加了几个数量级。当业务飞速发展,面对几亿甚至十亿级别时序数据,我们该如何管理?

  • 数据看板体系成为刚需

随着数据量爆发式增长,传统的线图、直方图、散点图等数据展示方法很难让运维人员找到数据背后的异常或隐藏瓶颈。如何针对不同业务或者不同监控对象,找到更合适的数据看板以及展现形式,成为了每个运维人员的必修课。

  • 中台枢纽作用

随着技术飞速发展,监控系统在整体运维系统的中台枢纽作用越来越明显,运维监控从传统的流程驱动转变为数据驱动。如何更便捷的与其它众多运维子系统对接整合,也是运维团队在监控体系搭建之初需要考虑的问题。

企业监控体系演进历程

结合上述特点,我们讲企业监控体系的演进历程归纳为以下阶段。

推广期:服务器数量 50~100 台之间

这个阶段由于服务器数量较少、业务规模较小,因此,运维团队对监控的需求也相对简单。能够实现基本的通知问题、快速定位与解决问题即可。此时的平台搭建主要是让研发、运维等同学能够逐渐熟悉产品使用,并通过体验和反馈,确认是否满足企业 IT 运维以及业务特征需求,这其中几个关键特点包括:

(1)部署简单,有成熟的文档与服务体系,上手易用;

(2)稳定运行,SLA 保障;

(3)告警体系的通知形式不用太丰富,但确保相对及时、可用;

(4)低成本费用或免费。

基于以上需求,很多初创企业可能会选择 Nagios,Cacti,Zabbix,Ganglia 等开源工具。热门的开源监控产品文档相对完整,可快速上手且有大量企业实践可供参考。但这里存在问题就在于开源产品的性能、使用场景无法满足随着业务场景的发展以及业务量增长,进而出现各种各样的问题。与此同时,高可用成为致命问题,毕竟开源社区不会时刻有志愿者帮我们排查故障。

爆发期:服务器数量 200~1000 台之间

这个阶段由于服务器数量变多、技术架构发生了变化、组件越发丰富,监控需求也开始变得复杂。但面对众多服务模块或运维系统,我们需要分批次有序接入,在保证稳定性的前提下,快速上量、统一技术栈。监控系统主要用于告警通知,发现问题并避免同样问题再次发生。这其中具备几个关键特点:

(1)监控内容汇总与分类

由于监控对象以及信息随着技术架构与业务规模扩大而增多,需要针对软硬件、业务等不同维度的数据实现全覆盖式监控。并针对不同监控用途,需要对监控进行分类汇总,比如系统基础监控数据、网络监控数据和业务监控数据。尽可能多的监控覆盖,尽快发现重要问题,确保业务稳定运行。

(2)多种告警方式,及时无漏报

根据监控对象的重要程度、紧急程度进行分类,并通过邮件、微信、短信、电话等不同级别不同方式进行告警通知,每个监控对应到不同责任人,确保每个告警都有人及时跟进处理。

(3)告警策略优化与信息收敛

由于需要监控的服务越来越多,告警信息数量激增,每天都可能收到上千封报警邮件。过多的告警信息就失去了精准告知的意义。如何对告警策略进行配置和优化,尽量减少不必要的告警邮件,成为策略设置的核心。 

成熟期:服务器数量 1000 台以上

由于业务持续增长,对服务器的需求越来越大,当服务器超过 1000 台以后,意味着核心系统需要全部接入,并构建新的稳定性保障体系,包括监控大盘、告警通知、应急值班等。才能确保整个业务与技术大盘的稳定。这其中,需要关注:

(1)监控延时与告警滞后

当业务规模越老越大,由于组件或服务的耦合关系,很可能由于局部的细小故障导致整个业务系统的瘫痪。因此,及时发现问题成为了一切的大前提。但假如还在选择时开源产品,这时可能就有不小的麻烦。以 Zabbix 举例,当规模达到一定量后,有时候会出现监控数据不能及时显示,告警延时等问题。我们确实可以通过各种优化方式进行调整。但业务出现问题而造成的损失并不能挽回。

(2)监控系统自身的 SLA

当收集运维数据飞速增长,监控系统自身的高可用也成为了重要关注点。毕竟,失去了监控系统意味着对整个技术与业务的运行状态失去了控制。

更具性价比的解决方案:应用实时监控服务 ARMS

面对上述不同阶段的痛点,ARMS 成为了最佳的解决方案。与此同时,阿里云推出 ARMS 3.0 普惠计划旨在通过更灵活的计费方案,帮助不同类型的用户在不同使用阶段,以更合理的成本获取更高性价比的可观测体验。在 2021 年 10 月即将推出的应用监控基础版(按量计费)模式支持 0 元用:指标免费存储 3 天,调用链基础采样免费存储 1 天,功能与原有基础版保持一致,可按量付费延长存储周期或提高链路采样。详情可参考应用监控基础版功能列表或产品计费说明。 

图片 1.png

根据上述阶段的用户诉求,ARMS 3.0 应用监控推出了配套的灵活计费策略:

(1)试用期:ARMS 提供新用户 15 天免费使用,全面评估 ARMS 产品与业务契合程度。

(2)推广期:ARMS 提供基础版免费额度,应用监控指标免费存储 3 天,调用链基础采样免费存储 1 天。零门槛无限期使用,不用担心推广期间的费用问题。

(3)爆发期:ARMS 基础版支持按流量计费,可以按需调整指定应用的调用链采样率,或延长存储周期。

(4)成熟期:根据业务流量类型自由选择按流量计费或按节点计费。

按流量计费,用多少算多少

随着微服务和 Kubernetes 的普及,微服务拆分越来越细,单个 Pod 流量越来越小。按节点计费模式就显得不够灵活,在业务流量不变的情况下,成本随节点规模快速增长显然不够合理。 

为了解决小流量和弹性流量用户的可观测成本问题,ARMS 3.0 推出了应用监控基础版(按量计费)模式:调用链基础采样免费存储 1 天,付费采样链路按照 0.2 元/(百万条Trace*天) 进行计费,单条 Trace 最多可包含 10 条 Span 调用,超出部分按比例折算。指标数据 3 天内免费,可按需付费延长存储周期,如下表所示。

图片 2(2).png

以 ARMS 某基础版用户为例,该用户创建了约 300 个 Pod,原始调用总量约为 54 亿次/天,调用链采样率为 10%,实际存储量约 5400 万 Trace/天。按照原基础版链路存储1天,指标存储 3 天计算,升级为按流量计费后费用可节省 90% 以上。

图片 3.png

超大流量,按节点计费更划算

一些 ToC 类型的业务流量非常大,并且对问题可追溯的时间跨度要求高,需要长周期存储。此时,可以选择 ARMS 专家版按节点计费模式,链路存储 30 天,指标存储 90天,一价全包,费用封顶,更适合大流量核心应用接入。专家版还可享受 容器服务 ACK 或 EDAS 用户半价优惠,购买预付费流量包最低可至 1.308 元/(探针*天),详见 ARMS 产品价格说明。

常见问题

Q:新老用户如何升级至应用监控新基础版(按量计费)模式?

A:2021 年 10 月以后,新用户试用期结束后,选择开通基础版,默认进入按量计费模式;存量基础版用户可以在应用监控 -> 应用列表页面上方点击升级至新计费模式。新基础版链路免费采样依赖 Agent 升级至 2.7.1.3 版本,可以在应用监控 -> Agent 列表 -> java版本说明页面选择对应区域进行下载,阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 。

Q:新基础版(按量计费)默认是免费的吗?免费多久?

A:开通新基础版(按量计费)后,默认是完全免费的,如果不调整存储周期或调用链采样率可以无限期免费使用,非常适合小流量或测试应用接入。

Q:基础版包含哪些功能?与开源和专家版有什么区别?

A:基础版支持调用链、服务监控、JVM/主机监控、告警等基础 APM 功能,与开源能力基本持平。专家版在内存/线程/异常等诊断方面会有大幅增强,按节点计费,调用链存储 30 天,指标存储 90 天,更适合大流量或核心生产应用。

Q:除应用监控外,ARMS 前端监控、云拨测和 Prometheus 监控是否支持按量计费?

A:ARMS 前端监控、云拨测和 Prometheus 监控均支持按量计费,并且可以通过预付费获得优惠折扣,详情请参考 ARMS 产品价格说明。

相关链接:

1)应用监控基础版功能列表:

产品版本对比 - 应用实时监控服务ARMS - 阿里云

2)产品计费说明:

阿里云定价_应用实时监控服务ARMS

3) ARMS 产品价格说明:

阿里云定价_应用实时监控服务ARMS

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512118.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用过留痕,谁动了我的档案?

本篇文章暨 CSDN《中国 101 计划》系列数字化转型场景之一。 《中国 101 计划——探索企业数字化发展新生态》为 CSDN 联合《新程序员》、GitCode.net 开源代码仓共同策划推出的系列活动,寻访一百零一个数字化转型场景,聚合呈现并开通评选通道&#xff0…

php在线考试系统模板下载,PHPEMS在线模拟考试系统 v6.1

PHPEMS在线模拟考试系统主要用于构建在线考试系统,如驾照、英语等练习系统。一、系统功能:1、强化训练测验,对知识点进行单独联系2、随机组卷练习,系统自动抽取题目进行练习3、手工组卷联系,通过教师平台手工组卷形成考…

媒体声音|阿里云数据库:一站式全链路数据管理与服务,引领云原生2.0时代

简介: 引领云原生数据库技术持续创新 这几年,云原生已成为阿里云的另一个标签,不仅最早布局云原生技术,拥有大量客户实践,更打造出丰富的云原生产品家族。尤其是数据库产品线,已进入云原生2.0阶段&#xf…

数据增长浪潮下,PCIe 6.0的问与Rambus的答

作为历史上使用最广泛、可扩展性最强的互联技术,PCIe标准自21世纪初正式创立以来,它便一直作为数据中心和计算应用芯片间数据传输的行业标准而存在。而在近几年间,随着全球数据量的爆发式增长,PCIe标准的更迭自3.0到4.0的“七年之…

阿里巴巴首席技术官程立:我们相信并正在践行的“好科技”

简介: 10月21日,阿里巴巴集团首席技术官程立出席2021年云栖大会技术*可持续发展论坛,并发表《科技创新和未来生活》的主题演讲,谈及科技创新的价值,以及阿里巴巴相信并正在践行的“好科技”,本文是程立的分…

Serverless 架构模式及演进

简介: Serverless 架构从使用技术上有计算,数据存储,消息通信,我们可从运维性,安全性,可靠性,可扩展性,成本几个角度来衡量架构的优劣。本文会介绍一些常见的业务场景,探…

Kubernetes 的自动伸缩你用对了吗?

作者 | AddoZhang来源 | 云原生指北本文翻译自 learnk8s 的 Architecting Kubernetes clusters — choosing the best autoscaling strategy[1],有增删部分内容。TL;DR: 在默认设置下,扩展 Kubernetes 集群中的 pod 和节点可能需要几分钟时间。了解如何调…

贾扬清谈云原生-让数据湖加速迈入3.0时代

简介: 摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生--让数据湖加速迈入3.0时代》的分享。 摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带…

一张图教你玩转阿里云双11上云狂欢节

一年一度的双11狂欢节已经开启啦!下面一张图教你如何玩转阿里云双11上云狂欢节! 双11主会场地址:http://click.aliyun.com/m/1000305076/

写时复制就这么几行代码,还是不会?

‍作者 | 闪客来源 | 低并发编程这里讲的是 Linux 内核里的写时复制原理。写时复制的原理网上讲述的文章很多,今天来一篇很直接的文章,通过看看 Linux 0.11 这个最简单的操作系统,从源码层面把写时复制的原理搞清楚。很简单哦,你可…

划重点|iOS15正式发布, 全新的通知推送系统,你必须要知道

简介: 今年友盟联合达摩院决策智能实验室讲算法技术,推出国内首个智能推送功能,帮助产品运营人员实现一键式触达的精细化运营。通过精心打磨的在线学习与优化算法,对推送人群与推送文案进行精准匹配,最大化用户点击量。…

万物互联下的碎片化怎么破?UINO优锘推出物联网产业元宇宙“物联森友会”

编辑 | 宋慧 出品 | CSDN云计算 移动浪潮之后,随着5G普及,IoT物联网已经成为下一个技术聚焦的领域。不过,万物互联中的“万物”终端,一直都存在着庞杂的应用场景,品类众多、技术指标各异的传感器,以及海量…

云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。 摘要&…

数据湖构建与计算

简介: 2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。 摘要:2021云栖大会云原生企业级数据湖专场&am…

天天讲路由,那 Linux 路由到底咋实现的!?

作者 | 张彦飞allen来源 | 开发内功修炼容器是一种新的虚拟化技术,每一个容器都是一个逻辑上独立的网络环境。Linux 上提供了软件虚拟出来的二层交换机 Bridge 可以解决同一个宿主机上多个容器之间互连的问题,但这是不够的。二层交换无法解决容器和宿主机…

治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

简介: 10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的“数据悬河”,释放企…

函数式编程的Java编码实践:利用惰性写出高性能且抽象的代码

简介: 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所以读者不需要任何函数式编程的基础,只需要对 Java 8 有些许了解即可。 作者 | 悬衡 来源 | 阿里技术公众号 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所…

WorkManager从入门到实践,有这一篇就够了

作者 | Eason来源 | 程序员巴士前言一般情况下,我们大部分的操作都是在app打开的时候进行的,但是在某些情况下,即使app关闭了,我们也可能需要执行必要的动作,或者会采取一个动作,而不是让用户等待加载&…

终端卡顿优化的全记录

简介: 目前手机SOC的性能越来越少,很多程序员在终端程序的开发过程中也不太注意性能方面的优化,尤其是不注意对齐和分支优化,但是这两种问题一旦出现所引发的问题,是非常非常隐蔽难查的,不过好在项目中用到…

brew安装指定版本mysql,Mac 系统为 Valet 开发环境安装指定版本 MySQL

Mac 系统为 Valet 开发环境安装指定版本 MySQL由 学院君 创建于1年前, 最后更新于 5个月前版本号 #31547 views1 likes0 collects在 Mac 系统下使用 Valet 作为 Laravel 本地开发环境的话,需要自行安装 MySQL 数据库,我们通过 Homebrew 来安装。如果之前…