大数据之LibrA数据库系统告警处理(ALM-12033 慢盘故障)

告警解释

系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。

更换磁盘后,告警自动恢复。

告警属性

告警ID

告警级别

可自动清除

12033

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

DiskName

产生告警的磁盘名。

对系统的影响

磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,例如DBService主备同步等,严重时可能会导致服务不可用。

可能原因

磁盘老化或者磁盘坏道。

处理步骤

检查磁盘状态。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中“HostName”字段和“DiskName”字段的值,获取该告警产生的故障磁盘信息。
  3. 确认上报告警的节点是否为虚拟化环境。

    • 是,执行步骤 4。
    • 否,执行步骤 7。

  4. 请检查虚拟化环境提供的存储性能是否满足硬件要求,检查完毕之后执行步骤 17。

    说明:

    硬件要求说明,可参考产品文档中《产品描述》的“部署方案 > 硬件及运行环境要求”章节。

  5. 登录告警节点,执行df -h命令,查看输出内容是否包含“DiskName”字段的值。

    • 是,执行步骤 7。
    • 否,执行步骤 6。

  6. 执行lsblk命令,是否可以查到“DiskName”字段值与磁盘设备的映射关系。

    • 是,执行步骤 7。.
    • 否,执行步骤 25。

  7. 使用PuTTY工具,以root用户登录上报告警的节点,执行lsscsi | grep "/dev/sd[x]"命令查看磁盘的设备信息,判断磁盘是否建立了RAID。

    说明:

    其中/dev/sd[x]步骤 2中获取到的上报告警的磁盘名称。

    例如执行:

    lsscsi | grep "/dev/sda"

    如果命令执行结果第三列显示ATA、SATA或者SAS,说明磁盘没有建立RAID;显示其他信息,则该磁盘可能建立了RAID。

    • 是,执行步骤 12。
    • 否,执行步骤 8。

  8. 执行smartctl -i /dev/sd[x]命令检查硬件是否支持smart。

    例如执行:

    smartctl -i /dev/sda

    如果命令执行结果中包含“SMART support is: Enabled”,表示磁盘支持smart;执行结果中包含“Device does not support SMART”或者其他,表示磁盘不支持smart。

    • 是,执行步骤 9。
    • 否,执行步骤 17。

  9. 执行smartctl -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 10。
    • 否,执行步骤 18。

  10. 执行smartctl -l error -H /dev/sd[x]命令查看磁盘的GLIST列表,进一步继续判断磁盘是否正常。

    例如执行:

    smartctl -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 11。
    • 否,执行步骤 18。

  11. 执行smartctl -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 9和步骤 10,检查磁盘是否正常。

    例如执行:

    smartctl -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  12. 执行smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令检查硬件是否支持smart。

    说明:
    • [sat|scsi]表示磁盘类型,需要尝试以上两种类型。
    • [DID]表示槽位信息,需要尝试0~15。

    例如依次执行:

    smartctl -d sat+megaraid,0 -H --all /dev/sda

    smartctl -d sat+megaraid,1 -H --all /dev/sda

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    ...

    依次尝试不同磁盘类型和槽位信息的命令组合,如果执行结果中显示“SMART support is: Enabled”,表示磁盘支持smart,记录命令执行成功时磁盘类型和槽位信息组合参数;如果尝试完以上所有的命令组合,执行结果都未显示“SMART support is: Enabled”,表示磁盘不支持smart。

    • 是,执行步骤 13。
    • 否,执行步骤 16。

  13. 执行步骤 12中记录的smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 14。
    • 否,执行步骤 18。

  14. 执行smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x]命令查看硬盘的GLIST列表,进一步判断硬盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 15。
    • 否,执行步骤 18。

  15. 执行smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 13和步骤 14,检查磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  16. 磁盘不支持smart,通常是因为配置的RAID卡不支持,此时需要使用对应RAID卡厂商的检查工具进行处理,然后执行步骤 17。

    例如LSI一般是MegaCli工具。

  17. 删除告警,并继续观察该告警,查看同一块磁盘的告警是否会继续上报。

    如果当前磁盘出现三次以上该告警,建议用户更换磁盘。

    • 是,执行步骤 18。
    • 否,操作结束。

更换磁盘。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中对应的“HostName”字段和“DiskName”字段的值,获取该告警上报的故障磁盘信息。
  3. 参考产品文档《故障管理》的“应急处理 > 常见紧急故障修复 > 硬盘故障处理”章节进行更换硬盘操作。
  4. 检查告警是否清除。

    • 是,操作结束。
    • 否,执行步骤 22。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/140993.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue,react虚拟dom

Virtual DOM 前言 在传统的Web开发中,直接操作真实的DOM通常是一个昂贵且低效的操作。为了解决这个问题,Virtual DOM(虚拟DOM)被引入为一个中间层,允许开发者在内存中进行操作,从而避免频繁且不必要的真实D…

377. 组合总和 Ⅳ

给你一个由 不同 整数组成的数组 nums ,和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 示例 1: 输入:nums [1,2,3], target 4 输出:7 解释&#…

什么是代理IP池?真实测评IP代理商的IP池是否真实?

代理池充当多个代理服务器的存储库,提供在线安全和匿名层。代理池允许用户抓取数据、访问受限制的内容以及执行其他在线任务,而无需担心被检测或阻止的风险。代理池为各种在线活动(例如网页抓取、安全浏览等)提高后勤保障。 读完…

【C语言 | 预处理】C语言预处理详解(一) —— #define、#under、#if、#else、#elif、#endif、#include、#error

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

“第六十七天”

各位,昨天查找子串的方法想起来了,就是那个KMP算法......自己理解都有点困难,还看看能不能想一下,确实很困难啊。 不要忘了toupper函数和tolower函数不是直接改变字符的大小写,而是返回对应的大小写的值,需…

文件上传 [ACTF2020 新生赛]Upload1

打开题目,发现是一道文件上传题目 随便上传个一句话木马上去 发现网站前端有白名单限制,只能上传含有jpg,png,gif的后缀文件 那我们便传个2.jpg的一句话木马上去,bp抓包 我们改成php文件后缀试试,发现重发…

JS对图片尺寸和DPI进行编辑修改(1寸照修改为2寸照)

各种报名都对照片有大小限制&#xff0c;鉴于这种情况&#xff0c;网上搜了后拼凑出了如下代码&#xff0c;用于解决1寸照片修改为2寸照片&#xff0c;同时将DPI修改为300&#xff0c;当然也可以根据自己的情况修改代码&#xff1a; HTML <input type"file" id&…

毕业设计项目:基于java+springboot的共享单车信息网站

运行环境 开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Ma…

ABAP OpenSQL 分页处理

功能实现 在 ABAP 中&#xff0c;可以使用 OpenSQL 来实现分页功能。下面是一种实现分页的示例方法&#xff1a; 首先&#xff0c;定义一个内部表来存储查询结果数据&#xff1a; DATA lt_data TYPE TABLE OF your_data_type.然后&#xff0c;使用 SELECT 语句将数据查询到内…

Android 10.0 Settings 加载流程

一、系统设置首页 代码路径&#xff1a;packages/app/Settings/ 1 主界面加载&#xff1a; <!-- Alias for launcher activity only, as this belongs to each profile. --><activity-alias android:name"Settings"android:label"string/settings_la…

5. HTML常用标签

5.1 标签语义 学习标签是有技巧的&#xff0c;重点是记住每个标签的语义。简单理解就是指标签的含义。即这个标签是用来干嘛的。 根据标签的语义&#xff0c;在合适的地方给一个最为合理的标签。可以让页面结构给清晰。 5.2 标题标签 <h1>-<h6>(重要) HTML提供了…

【学习辅助】Axure手机时间管理APP原型,告别手机控番茄任务模板

作品概况 页面数量&#xff1a;共 30 页 兼容软件&#xff1a;Axure RP 9/10&#xff0c;不支持低版本 应用领域&#xff1a;时间管理、系统工具 作品申明&#xff1a;页面内容仅用于功能演示&#xff0c;无实际功能 作品特色 本品为「手机时间管理」APP原型&#xff0c;…

第二座山:万事万物的宇宙规律,一定是站在共赢才能实现

第二座山 真善 实现大众利益 破我执、破小钱关&#xff0c;破小情关&#xff0c;破小事关众生皆苦&#xff0c;十年的目的就是牺牲自己任何那些你的身外之物&#xff0c;它根本不可控 真善 实现大众利益 破我执、破小钱关&#xff0c;破小情关&#xff0c;破小事关 你今天…

Redis集群,你真的学会了吗?

目录 1、为什么引入集群 1.1、先来了解集群是什么 1.2、哨兵模式的缺陷 引入集群解决了什么问题 1.3、使用集群&#xff0c;如何存储数据 2、三种主流的分片方式【经典面试题】 2.1、哈希求余算法 2.1.1、哈希求余算法的介绍 2.1.2、哈希求余算法如何扩容 2.2、一致性…

C# 并发编程

C# 并发编程 前言 对于现在很多编程语言来说&#xff0c;多线程已经得到了很好的支持&#xff0c; 以至于我们写多线程程序简单&#xff0c;但是一旦遇到并发产生的问题就会各种尝试。 因为不是明白为什么会产生并发问题&#xff0c;并发问题的根本原因是什么。 接下来就让…

acwing算法基础之数学知识--筛法求<=n的所有质数

目录 1 基础知识2 模板3 工程化 1 基础知识 核心思想&#xff1a;把2~n中的非质数打上标记&#xff08;也即&#xff0c;筛掉&#xff09;&#xff0c;剩余的就是质数。 一般做法&#xff1a; int primes[N]; //存储所有的质数 int st[N]; //存储是否被排除 int cnt; int n;…

vcomp120.dll丢失怎么办?vcomp120.dll丢失的解决方法分享

vcomp120.dll丢失”。这个错误通常会导致某些应用程序无法正常运行&#xff0c;给用户带来困扰。那么&#xff0c;当我们遇到这个问题时&#xff0c;应该如何修复呢&#xff1f;下面我将为大家介绍四个修复vcomp120.dll丢失的方法。 一、使用dll修复程序修复 可以通过百度或许…

flink的副输出sideoutput单元测试

背景 处理函数中处理输出主输出的数据流数据外,也可以输出多个其他的副输出的数据流数据&#xff0c;当我们的处理函数有副输出时&#xff0c;我们需要测试他们功能的正确性&#xff0c;本文就提供一个测试flink副输出单元测试的例子 测试flink副输出单元测试 首先看一下处理…

基于SWAT-MODFLOW地表水与地下水耦合

耦合模型被应用到很多科学和工程领域来改善模型的性能、效率和结果&#xff0c;SWAT作为一个地表水模型可以较好的模拟主要的水文过程&#xff0c;包括地表径流、降水、蒸发、风速、温度、渗流、侧向径流等&#xff0c;但是对于地下水部分的模拟相对粗糙&#xff0c;考虑到SWAT…

矢量绘图软件Sketch 99 for mac

Sketch是一款为用户提供设计和创建数字界面的矢量编辑工具。它主要用于UI/UX设计师、产品经理和开发人员&#xff0c;帮助他们快速设计和原型各种应用程序和网站。 Sketch具有简洁直观的界面&#xff0c;以及丰富的功能集&#xff0c;使得用户可以轻松地创建、编辑和共享精美的…