在数字化转型的大潮中,服务器作为支撑企业业务运行的核心设备,其稳定性和可靠性显得尤为重要。然而,传统的内存故障预警修复技术往往存在反应滞后、误报率高等问题,难以满足日益增长的数据处理和存储需求。针对这一问题,浪潮信息研发团队深入剖析内存故障机理,结合人工智能和大数据技术,成功研发出新一代内存故障智能预警修复技术。
浪潮信息全新升级服务器内存故障智能预警修复技术MUPR® (Memory UCE Prevent and Repair),基于对上万台服务器故障数据的建模分析和AI模型算法的训练,围绕“预诊愈”核心技术手段,从单端预警,触发隔离防护升级为BIOS、BMC两级防护,从内存故障提前预警、内存错误实时隔离、内存故障智能修复等技术层级创新,实现在架构设计、错误类型、防护等级等方面全面增强。全天候、多方位监测服务器内存健康状态,精准预测UCE(不可纠正错误)故障,及时处理内存风险单元,使由内存故障导致的服务器宕机风险降低80%+,保障客户业务高效稳定运行。
该技术拥有超过20项核心专利,覆盖内存故障处理策略、防护系统架构设计、内存健康监控机制等关键技术,能够有效规避内存UCE故障的发生,切实保障服务器内存运行的可靠性和高效性。
内存故障智能预诊愈引擎,MUPR®关键修复技术
发现内存风险是第一步,而如何快速修复才是保障系统稳定的关键,MUPR®内存故障智能预警修复技术在操作系统、处理器、内存本体三个层级对风险单元进行全方位防护。
■ 操作系统层级:基于操作系统内存管理与内存故障处理机制的故障页隔离功能,可以将存在风险的内存故障页进行主动隔离不再访问。
■ 处理器层级:使用处理器级别的单颗粒纠正、锁步与块故障替换、内存镜像等技术,针对不同内存错误严重程度调用相应内存修复技术,防止数据丢失和系统崩溃。
■ 内存本体层级:基于内存SPEC及厂商定义的故障行替换机制,可以对内存故障行进行临时或永久性的替换修复。
MUPR®内存故障智能“预诊愈”引擎,可以自主选取当前内存错误最适合的修复技术,用户无需关心服务器底层的各类复杂技术的选择。针对行故障、列故障、Bank故障、块故障、Cell故障等故障的发生给出最优的修复策略。只需在服务器固件中启用MUPR®功能,ISBIOS®、ISBMC®即会通力协作,检测内存发生的每一笔CE错误,强力支撑MUPR®预诊愈引擎运行。同时,深度运用CPU平台的各种RAS修复机制,如PCLS、ADC、ADDDC等,强力释放系统容错潜能,适时启用内存颗粒的故障行PPR修复机制,精确执行Windows、Linux操作系统故障内存Page Offline,大幅度降低内存UCE故障宕机风险。
搭载了MUPR®技术的浪潮信息元脑®服务器,可实时监测内存行、列和Cell中的微观故障,高效匹配内存UCE发生状态特征,准确预测有较大概率发生UCE错误的内存地址,基于预测结果及时启动相应的隔离修复机制,治病于未发、防患于未然。以50万台服务器级别的数据中心为例,内存UCE发生率按年化1%计算,MUPR®技术可以有效规避80%+的内存UCE发生,每年可以节省约5400万的内存故障维护费用,让系统更加平稳、高效运行。
在MUPR®关键修复技术的护航下,浪潮信息元脑®服务器不仅保障了服务器内存运行的可靠性和高效性,更在智能化预警和修复方面取得了显著突破,最终为企业带来了更流畅、稳健的运维体验。