超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

当 IT 系统出现故障,问题定位往往是运维人员最头疼的环节。尤其是超融合系统,由于整体涉及的技术栈比较复杂,且有越来越多的用户基于信创环境进行部署,非常考验厂商和技术人员的专业能力:厂商研发和售后工程师不仅应能快速定位自家产品的问题,还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。

得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力,SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持,帮助用户解决基础设施软硬件(含信创技术栈)多个层面的技术问题。下面,我们将通过 3 个案例,分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。

服务器硬件层问题定位与解决案例

某制造企业:存储出现过长延迟,SmartX 工程师分析日志发现“可疑”SSD

某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警(未产生使用影响)。得到联系后,SmartX 工程师为客户提供了远程排查,发现所有节点均存在零星的 Slow I/O,但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志,发现在发生 Slow I/O 时存在异常日志:

hci-fault-locating-1.png

一线工程师与开发团队共同分析后,判断该日志为 SSD I/O 太慢导致的。经过进一步排查,工程师排除了 HBA 卡的问题,在检查 SSD 时,发现服务器厂商提供的硬件与客户要求的不一致,可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试,证实该 SSD 确实不符合客户预期,且由于硬盘自身的资源回收机制存在问题,会导致性能下降,因此触发了告警。SmartX 随即协助客户完成了 SSD 更换,有效解决了这一问题。

信创技术栈虚拟化平台层问题定位与解决案例

某金融机构:虚拟机突然暂停,SmartX 工程师发现 KVM 内存申请问题并提供 Kernel Patch

某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群(基于原生虚拟化 ELF),在正常运行时,发生虚拟机暂停现象,从运维管理界面观察到虚拟机处于暂停状态,无法 ping 通,无法对外提供服务。

为了方便故障排查,同时保证当前业务的正常进行,SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用,随后协助用户进行远程诊断。在检查日志时,SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录,且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索,工程师高度怀疑虚拟机暂停与 KVM 有关,并协调服务器厂商一起进行问题排查。

hci-fault-locating-2.png

为了避免再发生虚拟机暂停的情况,SmartX 先为用户提供了一个临时方案,该方案能够在 2 分钟内发现暂停的虚拟机,并以邮件方式通知管理员,由管理员操作恢复虚拟机。同时,SmartX 开发团队在进一步分析后发现了问题原因:当虚拟机里产生缺页中断,会进入 KVM 申请内存,这时 KVM 对内存页交换条件进行了错误判断,导致虚拟机申请内存失败,进而导致暂停。

定位问题后,SmartX 开发团队在一周内就提供了 Kernel Patch,通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后,虚拟机正常运行,并于 3 周后对生产集群进行了升级,再未出现虚拟机暂停的情况。

信创技术栈虚拟机层问题定位与解决案例

某金融机构:信创集群切换虚拟网络后网卡丢失,SmartX 工程师多次测试定位网卡热插拔速率

某金融用户信创超融合集群(基于 ARM 架构的信创操作系统)在编辑虚拟网卡关联网络后,发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后,发现用户原 POC 环境中并未出现该问题,再次测试验证后,初步判断该问题是由于跨 VDS 修改网卡网络导致的:在正式集群中,虚拟机网卡关联网络跨越了不同的 VDS,可能存在虚拟机内部无法识别网卡的情况,而 POC 环境不存在跨 VDS 的情况。

为了进一步准确根因,SmartX 研发团队检查了 Guest OS 内部日志,并开展了多次复现测试,针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现,仅当 Guest OS 为某国产操作系统特定版本时,基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作,操作系统的 Kernel pciehp 驱动中断处理异常,会导致热插设备被自动卸载。后经研发团队反复测试,将安全热插拔间隔时间确定在 3 秒及以上。

针对这一问题,SmartX 为用户提供了 Patch,确保用户在该操作系统上能够正常进行网络切换,随后与操作系统厂商进行了沟通,由操作系统厂商进一步定位并修复了该问题。

SmartX 超融合:自研核心技术助力全栈故障根因

SmartX 技术团队卓越的故障定位与解决能力,不仅源自于过硬的专业技能,更得益于 SmartX 核心组件自主研发,和信创技术栈的深度适配:

  • 超融合核心组件 100% 自主可控,SmartX 一线工程师和开发团队具备过硬的基础设施软硬件技术实力和丰富的故障根因经验,帮助用户解决多个层面的技术问题。
  • 深度适配国产主流 CPU 架构、操作系统、数据库与中间件,可为用户提供针对信创技术栈的技术支持。
  • SmartX 超融合的高可用与简易运维特性,可在降低故障定位难度的同时保障业务连续性。

欲详细了解 SmartX 超融合信创适配与运维支持特性,请阅读:

  • SmartX 超融合和分布式存储支持哪些信创硬件?如何选型配置?
  • 志凌海纳 SmartX 在信创:已成为金融机构“轻量信创云底座”首选
  • 一文了解 SmartX 超融合硬盘健康检测机制与运维实践
  • 一文了解 SmartX 超融合勒索攻击应对方案​​​​​​

您还可点击阅读电子书《超融合技术原理与特性解析合集:管理与运维》,了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性,降低用户运维压力。

阅读原文:超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646026.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[pytorch入门] 6. 神经网络

基本介绍 torch.nn: Containers:基本骨架Convolution Layers: 卷积层Pooling layers:池化层Non-linear Activations (weighted sum, nonlinearity):非线性激活Normalization Layers:正则化层 Container…

一文讲透Excel数据如何导入到Stata?

推荐采用《Stata统计分析从入门到精通》 杨维忠、张甜 清华大学出版社“1.2.6 导入其他格式的数据文件” 的解答。 在Stata主界面选择“文件|导入”命令(如图所示),即可看到Stata支持的其他格式的数据文件类型,包括Excel电子表格…

【收藏】幻兽帕鲁创建服务器教程

创建幻兽帕鲁服务器1分钟部署教程,阿里云和腾讯云均推出幻兽帕鲁服务器服务器和部署教程,4核16G和4核32G配置可选,阿腾云atengyun.com分享1分钟自建幻兽帕鲁Palworld服务器教程: 幻兽帕鲁服务器创建教程 幻兽帕鲁服务器官方推荐…

如何在 Linux 上安装 Docker?最权威指南来了!

docker文档:https://docs.docker.com/engine/ 打开docker文档 这里需要注意,服务器上一般是没有界面的,我们只需要安装docker Engine。 卸载历史版本 这一步是可选的,如果之前安装过旧版本的Docker,可以使用如下命令…

[RK-Linux] 移植Linux-5.10到RK3399(十)| 配置AP6256模组使能WIFI、BT功能

手上 ROC-RK3399-PC Pro 使用蓝牙 WIFI 模组是 AP6256。 一、AP6256 模组介绍 AP6256是正基科技(AMPAK)推出的一款低成本、低功耗的双模模块,它集成了Wi-Fi和蓝牙功能。这款模块支持SDIO接口,具有以下特点: 1、型号:AP6256 2、接口:SDIO(Secure Digital Input/Outp…

图像旋转角度计算并旋转

#!/usr/bin/python3 # -*- coding: utf-8 -*- import cv2 import numpy as np import timedef Rotate(img, angle0.0,fill0):"""旋转:param img:待旋转图像:param angle: 旋转角度:param fill:填充方式,默认0黑色填充:return: img: 旋转后…

《幻兽帕鲁》32人专有服务器设置教程,亲测稳定

创建幻兽帕鲁服务器1分钟部署教程,阿里云和腾讯云均推出幻兽帕鲁服务器服务器和部署教程,4核16G和4核32G配置可选,阿腾云atengyun.com分享1分钟自建幻兽帕鲁Palworld服务器教程: 幻兽帕鲁服务器创建教程 幻兽帕鲁服务器官方推荐…

飞速(FS)400G产品全家福及其应用介绍

随着大型数据中心不断向更高性能、更大规模的架构演进,构建能够有效应对海量用户群体、智能设备激增及复杂应用负载所需的高容量网络连接已变得不可或缺。尤其是在超大规模云计算服务迅速普及的背景下,对具备超高带宽和微秒级低延迟特性的网络基础设施需…

灌区信息化系统的建设内容和应用

一、背景 随着科技的不断发展,信息化技术已经逐渐渗透到各个领域中,为我们的生活和工作带来了极大的便利。灌区作为农业发展的重要组成部分,其信息化系统的建设也日益受到重视。 二、政策 据水利部消息,水利部、国家发改委近日正…

Unity中URP下获取额外灯数量

文章目录 前言一、SimpleLit下额外灯数量的获取1、在 SimpleLit 下,先获取了额外灯的数量2、对其进行循环计算每一个额外灯3、GetAdditionalLightsCount在这里插入图片描述 二、GetAdditionalLightsCount实现了什么1、_AdditionalLightsCount.x2、unity_LightData.y…

使用python写一个比Windows系统自带浏览器更好用的计算器

【介绍】 比Windows系统自带的还好用的计算器,感兴趣的可以试用一下。 1.支持括号优先级运算和平方、立方计算; 2.支持计算历史记录功能; 3.支持界面缩放和拖动; 4.支持钉在界面(界面最前置顶)&#xff0c…

Qt/QML编程之路:ListView实现横排图片列表的示例(40)

ListView列表,在QML中使用非常多,排列一个行,一个列或者一个表格,都会用到ListView。 ListView显示从内置QML类型(如ListModel和XmlListModel)创建的模型中的数据,或在C++中定义的从QAbstractItemModel或QAbstract ListModel继承的自定义模型类中的数据。 ListView有一…

未来零售策略解密:品牌全球化与新兴零售模式的交汇

随着全球数字化浪潮的不断推进,品牌出海已经成为零售业的重要发展方向。在这个多元化、全球化的市场中,线上线下融合和智能零售等新兴模式正迅速崛起,为品牌开拓更广阔的国际市场提供了丰富的可能性。本文Nox聚星将和大家探讨新兴零售模式在全…

Windows云服务器如何配置多用户登录?(Windows 2012)华为云官方文档与视频地址

Windows云服务器如何配置多用户登录?(Windows 2012)_弹性云服务器 ECS_故障排除_多用户登录_华为云 打开任务栏左下角的“服务器管理器”,在左侧列表中选中“本地服务器” 然后将右侧“远程桌面”功能的选项修改为“启用”&#x…

携程这几招,让千万用户真正实现低碳出游

近日,法大大与企业绿色发展研究院联合发布了《2023年签约减碳与低碳办公白皮书》(点击阅读及下载:法大大推出“签约减碳”年度账单,引领低碳办公新风潮),该白皮书基于《低碳办公评价》标准倡导的创新减碳技…

【必剪】鬼畜rap和鬼畜剧场的区别?

在【选择素材】中,每个素材下会有一个标签显示支持哪种的鬼畜形式,在点击一个两种格式的有【鬼畜剧场】和【鬼畜rap】这两中的主要区别在于 【鬼畜剧场】:对素材进行人工编排,创作自己原创的剧情作 【鬼畜rap】:对于素…

专业140+总分420+复旦大学957信号与系统考研经验复旦电子信息与通信

今年专业957信号与系统140,数二140,总分420,顺利上岸复旦大学,回顾这一年的复习,有起有落,也有过犹豫和放弃,好在都坚持下来了,希望大家考研复习要不忘初心,困难肯定是很…

win10安装postgresql 12.17

一、下载地址 Community DL Page 下载的12.17版本 二、安装 直接点“下一步、下一步”就可以,注意几点是在其中需要配置: 1.安装路径 2.data目录位置(默认是安装路径下的data文件夹) 3.端口(默认5432&#xff09…

多元跨界、戮力谐老!2024深圳国际户外运动展览会再创运动生活新方式

COSP Shenzhen 2024国际户外运动用品与时尚展 2024年3.14-16日 深圳会展中心(福田馆) COSP Shanghai 2024国际户外运动用品与时尚展 2024年9.05-07日 上海世博展览馆(浦东) 展会概述: 作为国内最具影响力的户外运动展会之一…

bt1120和bt656时序说明

时序说明 同步码说明 数据传输时序