大数据之LibrA数据库系统告警处理(ALM-12006 节点故障)

告警解释

Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。

当Controller可以正常接收时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

节点业务无法提供。

可能原因

网络断连、硬件故障或操作系统执行命令缓慢。

处理步骤

检查网络是否断连、硬件是否故障或者操作系统执行名称缓慢。

  1. 打开FusionInsight Manager页面,在告警列表中,优先处理在主机管理界面,健康状态为故障的节点故障告警。
  2. 在告警详情中,查看该告警的主机地址。
  3. 使用PuTTY工具,以root用户登录主管理节点。
  4. 执行ping 故障主机IP地址命令检查故障节点是否可达。

    • 是,执行步骤 13。
    • 否,执行步骤 5。

  5. 联系网络管理员查看是否为网络故障。

    • 是,执行步骤 6。
    • 否,执行步骤 7。

  6. 修复网络故障,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 7。

  7. 联系系统管理员查看是否节点硬件故障(CPU或者内存等)。

    • 是,执行步骤 8。
    • 否,执行步骤 13。

  8. 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。

    说明:如果节点硬件故障,请参考产品文档中《故障管理》的“应急处理 > 常见紧急故障修复 > 更换故障节点”章节进行处理。

    • 是,处理完毕。
    • 否,执行步骤 9。

  9. 当集群中上报大量的节点故障时,可能是浮动ip资源异常导致controller无法检测agent心跳。

    登录任意故障节点,查看“/var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log”,查看故障出现前后1-2分钟的日志是否完整。

    完整日志为如下格式:

     

    是,执行步骤 13。

    否,执行步骤 10。

  10. 查看检测完wsNetExport后是否打印omNetExport 的检测日志或两条日志打印间隔时间超过10s或更长。

    是,执行步骤 11。

    否,执行步骤 13。

  11. 查看操作系统的“/var/log/message”,查看故障出现时间段是否有sssd频繁重启或者nscd异常信息(Redhat操作系统确认sssd信息,SUSE操作系统确认nscd信息)。

    sssd重启样例

    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Starting up

    nscd异常信息样例

    Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server

    是,执行步骤 12。

    否,执行步骤 13。

  12. 排查ldapserver节点是否故障,例如业务IP不可达、网络延时过长等;若故障为阶段性,则需在故障时排查,并尝试执行top命令查看是否存在异常软件。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选如下节点信息,单击“确定”。

    • NodeAgent
    • Controller
    • OS

  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/126480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络】数据链路层——以太网

文章目录 前言什么是以太网以太网帧格式6位目的地址和源地址2位类型数据长度CRC 校验和 数据在数据链路层是如何转发的 前言 前面我们学习了关于应用层——自定义协议、传输层——UDP、TCP协议、网络层——IP协议,今天我将为大家分享关于数据链路层——以太网方面的…

C++ 如何快速确定新旧线程

在C中,您可以使用一些方法来快速区分是否当前代码正在主线程中执行还是在一个新线程中执行。以下是一些方法: std::this_thread::get_id(): 使用std::this_thread::get_id()可以获取当前线程的唯一标识符。您可以将主线程的ID与新线程的ID进行…

C语言 DAY08 指针01

1.概述 地址编号:地址编号:就是计算机为了存储数据,每一个程序在32机中占4G,以一个字节为最小单位进行操作,每一个字节都有其对应的地址,该地址就是地址编。 指针:地址编号的数据类型 指针变量:存储地址编号的变量,其数据类型为指针 在32位…

【Java-代码-A02】(00) 通过Java遍历文件夹,快速上手;

前言 【描述】 通过"Java"遍历文件夹下的所有文件,快速上手; 【环境】 系统"Windows",软件"IntelliJ IDEA 2021.1.3(Ultimate Edition)";“Java版本"1.8.0_202”; 实操 【第一步…

SQL练习(牛客网非技术快速入门)

SQL3 查询结果去重 题目:现在运营需要查看用户来自于哪些学校,请从用户信息表中取出学校的去重数据。 示例:user_profile iddevice_idgenderageuniversityprovince12138male21北京大学Beijing23214male复旦大学Shanghai36543female20北京大学Beijing4…

Python武器库开发-常用模块之OS模块(十一)

常用模块之OS模块(十一) Python中的 os 模块提供了非常丰富的方法用来处理文件和目录,可以执行一些操作系统的功能。常用的方法如下表所示: 序号方法描述1os.access(path, mode)检验权限模式2os.chdir(path)改变当前工作目录3os.chflags(path, flags)设…

B-5:网络安全事件响应

B-5:网络安全事件响应 任务环境说明: 服务器场景:Server2216(开放链接) 用户名:root密码:123456 1.黑客通过网络攻入本地服务器,通过特殊手段在系统中建立了多个异常进程,找出启动异常进程的脚本,并将其绝对路径作为Flag值提交; 通过nmap扫描我们发现开启了22端口,…

JAVA学习笔记——接口

概念: 接口(Interface)是一种规范或协议(Protocal),是由常量和抽象方法组成的特殊类,是对抽象类的进一步抽象,用于克服 Java 单继承的缺点。例如:每个厂商在生产鼠标的时候,鼠标的接口遵循了 USB 接口统一标…

C++特殊类的设计

文章目录 设计一个类不能被拷贝请设计一个类,只能在堆上创建对象设计一个类只能在栈上去创建对象设计一个类不能被继承设计一个类,只能创建一个对象(单例模式)饿汉模式懒汉模式 单例模式总结饿汉模式懒汉模式 设计一个类不能被拷贝 拷贝一个类对象可以有…

Kubernetes 概述以及Kubernetes 集群架构与组件

目录 Kubernetes概述 K8S 是什么 为什么要用 K8S K8S 的特性 Kubernetes 集群架构与组件 核心组件 Master 组件 Node 组件 ​编辑 Kubernetes 核心概念 常见的K8S按照部署方式 Kubernetes概述 K8S 是什么 K8S 的全称为 Kubernetes,Kubernetes 是一个可移植、可扩…

面试算法45:二叉树最低层最左边的值

题目 如何在一棵二叉树中找出它最低层最左边节点的值?假设二叉树中最少有一个节点。例如,在如图7.5所示的二叉树中最低层最左边一个节点的值是5。 分析 可以用一个变量bottomLeft来保存每一层最左边的节点的值。在遍历二叉树时,每当遇到新…

解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘,无需重装transformers和torch

如https://github.com/baichuan-inc/Baichuan2/issues/204 中所说: 修改下 tokenization_baichuan.py ,把 super() 修改到最后执行 self.vocab_file vocab_fileself.add_bos_token add_bos_tokenself.add_eos_token add_eos_tokenself.sp_model spm…

【AI数学】三维视觉中的四种坐标系

三维视觉中,需要掌握四种坐标系:世界坐标系、相机视角坐标系、NDC坐标系、屏幕坐标系。 世界坐标系(World coordinate system) 物体或者场景在真实世界中的位置。 相机视角坐标系(Camera view coordinate system&…

13.1 linux命令行查看控制串口(uart)全攻略

linux命令行查看控制串口(uart)全攻略 本文主要内容: 1 串口启动驱动打印 2 sys目录下的串口信息 3 proc目录下的串口信息 4 etc目录下的串口信息 5 dev目录下的串口信息 6 stty控制具体的串口 7 命令行控制串口读写 8 串口数据解析 1 串口启动信息 root@am62xx-evm:~# dme…

springboot的spring.jackson.date-format失效解决

看起来数据库的格式非常完美,但是数据库字段look_date 是 datetime类型,java里没有datetime类型,这样一来如果你不在后端做处理,那么模型属性Date来接收一定会出问题.我通过实验证明最后拿到的是一个时间戳. 第一 解决时间格式问题 1.可以通过application.propertis配置文件中…

Linux 环境下 安装 Elasticsearch 7.13.2

Linux 环境下 安装 Elasticsearch 7.13.2 前言镜像下载(国内镜像地址)解压安装包修改配置文件用 Es 自带Jdk 运行配置 Es 可被远程访问然后启动接着启动本地测试一下能不能连 Es 前言 借公司的 centos 7 服务器,搭建一个 Es,正好熟…

Pod 进阶

//资源限制 当定义 Pod 时可以选择性地为每个容器设定所需要的资源数量。 最常见的可设定资源是 CPU 和内存大小,以及其他类型的资源。 当为 Pod 中的容器指定了 request 资源时,调度器就使用该信息来决定将 Pod 调度到哪个节点上。当还为容器指定了 li…

基于图神经网络的联邦学习跨企业推荐

Federated Learning-Based Cross-Enterprise Recommendation With Graph Neural Networks 论文试图解决什么问题 该论文试图解决跨企业推荐系统中存在的数据共享和用户隐私保护的问题。在许多小型和中型企业中,由于资源有限,无法提供足够的数据来进行大…

HarmonyOS开发:开源一个刷新加载组件

前言 系统Api中提供了下拉刷新组件Refresh,使用起来也是非常的好用,但是风格和日常的开发,有着巨大的出入,效果如下: 显然上面的效果是很难满足我们实际的需求的,奈何也没有提供的属性可以更改,…

JVM虚拟机:通过一个例子解释JVM中栈结构的使用

代码 代码解析 main方法执行,创建栈帧并压栈。 int d8,d为局部变量,是基础类型,它位于虚拟机栈的局部变量表中 然后创建了一个TestDemo的对象,这个对象在堆中,并且这个对象的成员变量(day&am…