哈喽~又见面了大家!上期我们说到了数据在数智化转型中的重要性,戳这里↓↓↓,一键直达
2023企业数智化转型的正确打开方式是什么?他这样说(一)
这期我们将从监控的角度进一步跟大家分享数智化转型,话不多说,我们往下看
前言:
数字化转型背景下,随着轻量化的容器化技术和微服务应用的深度融合,业务复杂度随之上升。基于Prometheus的容器云监控体系成为目前主流容器监控事实标准,本文主要介绍企业如何通过Prometheus云原生监控进行数智化转型,涵盖指标采集、数据存储、可观测等方面,结合生产实践供大家参考。
一、云原生带来的挑战
我们从很多客户处看到,在云原生发展的过程中,只要有一个业务上云,就可能会启用一套Prometheus(或CK、Sky walking)工具去进行监控,久而久之就出现了很多监控工具,它们的数据游离在传统监控之外,使得监管变得十分困难。那么云原生背景下,企业运维监控的构建会是基于传统监控框架继续发展、自然演进,还是应该重新搭建独立造轮子?
分布式、云原生的快速发展,带来了很多技术上的革新,如更优雅的弹性结构、更灵活敏捷的调度方式、更完善的治理流程等,但凡事皆有利弊,它们同样也带来了更多新的复杂性和挑战:
1.从广度上看,微服务单元数呈现指数级增长,单元间关联关系庞杂,系统内部变更趋向动态化,架构日益复杂。
2.从深度上看,技术栈不断加深,故障点可能出现在任何地方,生产事件造成的影响越来越大,系统复杂性急剧提升。
二、企业新需求
云原生技术的发展催生出许多挑战,因此企业对运维监控的要求也水涨船高,主要表现在以下几个方面:
1.在数据层面
对监控数据的质量要求能够支撑复杂问题排障,能够跨域关联支撑运维分析并保证从开发到存储分析都能保证性能与稳定。
2.在体系层面
对运维监控体系要求能够明确边界和颗粒度,能够在容器环境下保证监控策略的稳快,能够确保多样化的开源工具既能在各自领域蓬勃发展,又能成为一体化统一监控体系内的能力拼图。
三、应对方案
擎创认为,以近年常被提到的“可观测性”来应对云原生监控难题,或许是一种不错的解法。用在这里的可观测是需要通过一种高度统筹的方式,将所有可观测的特征数据进行整合,创造出决策闭环,来提升组织决策的有效性。(主要包含的数据无外乎还是指标、调用链(Trace)、日志三大重要特征数据)
四、企业如何应对云原生带来的挑战
企业运维监控面对云原生带来的挑战,迫切的需要能够将数据关联打通壁垒,我们认为想要使监控走向数据驱动的模式,需要6大数据能力,才能使之实现。
1.数据模型
按照不同数据域进行数据建模,支撑快速构建上层运维场景
2.数据采控
统一且开放地采集跨越云内外的指标、日志、链路等数据
3.数据服务
针对贴源数据,提供高效、稳定的端到端数据开发服务;针对核心层数据提供统一的数据访问服务。
4.数据质量
符合时效性、完整性、正确性、合规性等数据标准以及管理规范。
5.数据存储
湖仓一体架构,满足时序、关系、结构化等不同类型数据的存储需求,按需进行分类、分级存储。
6.算法服务
以高质量数据为基础,提供指标、日志、拓扑等不同效用算法,洞见数据价值。
五、落地案例:数据模型
案例场景:
比如在数据模型中的指标域中,一些企业因为监控工具的分散,比如云外使用的是Zabbix,云内使用的是Prometheus,导致描述同样一个主机的CPU指标完全不一样,如果一旦出现问题,消费方就很难进行判断和使用,这就严重影响了运维效率。
解决方法:
某些技术类指标可以先根据对象属性进行分层和分级,然后再根据管理属性去进行拓展分类。这样处理过的指标数据在使用时,不需要去确认来源和采集方式,它们的标签一致、含义一致,可以完全满足消费方的需求,提供应有的数据价值,确保运维效率的快、准、稳。
今天的分享到这就要告一段落了,感兴趣的朋友可以戳头像进入主页了解更多Prometheus监控方面的文章,我们下期再见~
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~