一切的变化来自于数据中心规模、复杂度、设备多样性的挑战,将运维平台的重要性推向历史高点。
此外,基于业务连续性方面的考虑,分布式数据中心成为越来越多客户的选择。
一、数据中心面临的挑战
运维管理分散,缺乏统一的管理
IT 建设“各自为政”,缺乏统一的管理规划,服务器、存储、网络等 IT 资源与虚拟化平台等信息分散,系统无法集中统一管理,无法实现全栈软硬件集中管理和自动维护,运维管理成本高。
告警管理效率低
管理对象和监控指标覆盖不全,告警信息无法统一管理,重要告警易遗漏,告警处理效率低下,系统风险与日俱增。
缺乏全局视图
各设备管理界面分散,缺乏全景视图,难以挖掘优化点,无法有效支撑数据中心运营分析。
故障定位困难
随着数据中心和业务规模扩大,网络复杂度不断增加,一旦出现业务故障,端到端拓扑梳理耗时长,故障定位困难,影响业务系统可用性。
二、数据中心全栈运维功能需求
1、全栈监控
数据中心软硬监控一体化,实现故障快速定界定位。由于不同组织共用底层基础设施, 支持多租实现资源隔离。
2、日常运维
可视化大屏、报表的诉求,日常运维、上层汇报展示、参观展示均为主要使用场景。
日常运维 TOP 需求包括:虚拟机间流量监控、报表大屏、流程平台对接、自动根因分析、故障快速恢复、资源动态调整。
统一监管
数据中心 IT 资源种类繁多,从服务器、集中式存储、分布式存储、 IP 交换机、交换机等硬件基础设施,到虚拟化、容器等资源服务,再到 SDN 等高阶特性,数据中心运维平台需具备软硬件全栈的统一纳管能力,实现全栈资源的统一纳管、统一门户、统一运维、统一运营。
运维可视
数据中心的各种运维数据存储在不同的 IT 系统中,为满足日常运维的一屏统揽、客户或上级的参观展示以及数据中心的运营分析需求,需要将分散的运维数据集中展示,释放数据价值。数据中心运维平台需支持对设备性能指标、告警事件、资产配置等数据的融合关联,通过大屏或报表进行全方位的展示。大屏及报表需预制多种模板,方便运维人员的一键式导出;同时还需支持个性化定制,帮助运维人员随需掌握数据中心状态信息。
智能运维
对于日常运维,传统的运维方式多为被动等待问题出现后定位解决,而结合智能容量预测、智能风险检测等功能,可以提前发现问题风险并将风险消减于萌芽之中。对于故障定位,传统的运维方式需要卷入多设备的运维人员,人工梳理排查网络拓扑,在当下越发庞大和复杂的数据中心中显得效率尤为低下,通过运维平台提供的智能关联分析和智能拓扑梳理,可以快速且自动化地定位到问题关键点,故障定位时间缩短到分钟级。
资源高效发放
数据中心基础设施的计算、存储、网络等资源被不同的部门或用户使用,面对不同用户发起的资源申请需求,运维人员需频繁按照需求为用户发放资源,此时如若运维平台的资源发放过程效率低下、依赖于大量手工步骤,那么对于运维人员的日常工作必然造成困扰。以一个典型的 IOE 架构下的虚拟机发放过程为例,虚拟机的发放需要分别接入存储、网络、虚拟化平台的管理界面执行十数个步骤的手工操作,步骤繁杂且容易出错。
因此,数据中心运维平台需要支持资源的高效发放,从人工执行转变为自动化执行,从十数个步骤转变为一键式自动编排,从而满足日常的业务发放需要。
结合上述关键功能需求,面向全场景的数据中心全栈管理平台需具备融合、智能、开放三大能力:
融合
数据中心全栈软硬件管理:统一监控管理分支 - 中心多 DC 内的服务器、交换机、存储设备、虚拟化等资源, IT 人员通过一个“界面”完成日常运维管理工作,统一体验,提升效率。
统一告警:软硬件告警统一实时监控与通知,帮助运维人员及时发现问题。
智能
智能风险预警:通过 AI 实现智能风险预测,故障提前预知,问题一键闭环。
智能性能关联分析:对虚拟机、虚拟网卡、虚拟磁盘、数据存储等的性能问题智能关联分析,快速定界性能瓶颈。
智能拓扑分析:智能拓扑梳理,图形化辅助根因分析,问题定界定位小时级缩短到分钟级。
开放
开放生态:南北向广泛兼容,北向支持对接三方云管,南向支持多厂商设备管理、异构资源池纳管。
自定义报表:掌控全网资产、资源、业务运行状况,帮助运维决策、定期汇报。
自定义大屏:预置大屏和自定义能力满足日常参观、重点业务监控保障等诉求。
LinkSLA智能运维管家--更好的运维帮手
统一的、全栈的、智能的数据中心运维管理体系已成为当今用户数据中心运维的普遍需求。LinkSLA智能运维管家在全栈统一管理的基础上,结合业务高效发放以及 AI 技术赋予的智能故障定位、提前风险预知等能力,相信数据中心运维平台将快速从人工走向自动,最终走向全场景“自治”。