金融行业现场故障处理实录

  1. KL银行现场服务记录—HA故障

服务时间

2019年9月10日星期二 14:40 到2019年9月11日星期三 0:30

服务内容

  • 排查redhat RHEL 6.4 一个节点cman启动故障。

(1)、查看系统日志;

(2)、查看ha日志,/etc/cluster下各日志文件;

(3)、clustat查看集群状态,提示cman未运行;

(4)、查看集群配置文件/etc/cluster.conf;

(5)、对比另一个正常运行节点的状态及日志输出;

(6)、运行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟踪文件;

strace –f –o /tmp/cman.log /etc/init.d/cman status

由于当前不能执行cman启动操作,故障暂时不能排除。

  • 新的华为服务器,由于使用了UEFI代替老旧的bios进行引导管理,客户在安装redhat RHEL6.4时进行 不下去,顺便协助他正确完成安装。
  • Ha挂接的共享盘报“no clean”,预判文件系统存在问题,准备服务停止后,卸载挂接,然后修复(fsck)。

  1. MS银行(顺义)现场服务记录--kdump故障

问题描述

某Redhat RHEL 6.X系统部署应用以后,运行一段时间,可能会出现系统挂起现象,挂起时间不确定。相关人员怀疑是应用所引起的,为了弄清事实真相,需要在系统挂起前导出core文件。

系统已经配置好kdump,但在启动kdump服务时,无法成功。因此现场服务的主要任务时排查kdump启动故障。

排查过程

  • 检查相关的软件包是否正确安装:rpm-qa|grep kexec-tool ,已经被正确的安装。
  • 检查kdump.conf配置文件,为发现异常;
  • 检查系统日志/var/log/messages,未发现有价值信息;
  • 试着启动服务 service kdump start ,输出提示”找不到内核文件 kernel-15…”。初步判断问题出现在这里。这个数字15是哪里来的呢?
  • 打开文件/etc/sysconfig/kdump,发现其有效行的第一行有异常

通过对比其他正常系统的配置,其值默认为空,不为“15”。在征得同意以后,对其修改,并启动kdump服务。

处理结果

故障排除,完成服务。

  1. TK保险服务器重启排查记录

主要现象

近期以来,每隔2天左右会自动重启,并且重启时间不固定。

主要信息收集

  • 硬件信息:4颗物理cpu,总核数96,总线程数192;内存1T;磁盘多路径连接,划分多个逻辑卷。

  • 操作系统为redhat RHEL 7.4,内核版本3.10.0-693.未进行过版本更新。
  • 应用为db2数据库。

排查过程

  • 查看系统日志,dmesg及打开文件/var/log/messages,并用关键字error、fatal、warning等进行过滤。

egrep –i “error|fatal|warning” /var/log/messages

egrep –i “error|fatal|warning” /var/log/messages

未发现有价值信息。

  • 查看系统用户,存在多个普通用户,并拥有shell(bash)。
  • 查看用户授权,主要是/etc/suders,使用的命令 visudo 。虽然授权指令较多,但未发现有reboot指令的权限授予。
  • 排查用户的计划任务,因为用户较多,使用如下脚本进行查找。
for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

发现db2数据库启动账号有个重启脚本,设定的时间是每天早上8点。搜索此脚本及所在路径,不存在,建议注释掉此条。

  • 用户反馈,说二线技术支持曾经远程配置了kdump,模拟系统崩溃能生成vmcore文件,但昨天早上(6:00多钟)系统崩溃发生重启,却没有生成转储文件。查看文件/etc/default/grub及/boot/grub2/grub.cfg,其中 crashkernel=786M@0M。鉴于此,把crashkernel的值改成786M,去掉了后边的偏移量。再修改文件/etc/kdump.conf,启用压缩功能。

core_collector makedumpfile -c --message-level 1 -d 31

core_collector makedumpfile -c --message-level 1 -d 31

增加一個选项“-c”,表示启用压缩。

grub2-mkconfig -o /boot/grub2/grub.cfg  

grub2-mkconfig -o /boot/grub2/grub.cfg  

重新生成grub配置,需要重启才能生效。

  • 查看系统参数kernel.sysrq,其值为16,手动方式修改文件 /etc/sysctl.conf,显示指定

Kernel.sysrq=1

修改完执行 sysctl –p 使其生效。

  • 执行下列指令,模拟故障发生。

echo c > /proc/sysrq-trigger

重启完成后,在目录/var/crash确实生成了大文件,大小为4G。

服务建议

等下一次重启,如果生成了vmcore文件,把此文件传到case附件里边,有后台技术对其进行分析。

  1. TK人寿系统修复操作记录

问题及成因

一虚拟机系统, 不能正常引导,但还能进入单用户模式。此虚拟机没有对镜像进行备份,因此无法还原。系统中有用户的数据,因此不能通过重新安装系统来进行有效恢复。

通过沟通,了解到是用户自己在远程执行一個ssh脚本,此脚本有一行”chmod –R 777”的指令,本意是共享一個nfs服务目录,但因为为对目录是否存在进行判断,因此一执行完脚本,所有的目录文件的权限都变成777了。

处理过程

找一台运行正常的,版本一致的系统,对比/etc目录里各种权限与验证有关的目录和权限,如 passwd、shadow、ssh等。用chmod指令逐一进行修改,修改一些权限以后,重启系统,直到能正常运行,并且能用ssh远程登录。

处理结果及建议

交付给用户,然后建议重装系统。但用户自己认为没啥问题,以后再说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

跟着pink老师前端入门教程-day13

品优购案例 一、品优购项目规划 1. 品优购项目整体介绍 项目名称:品优购 项目描述:品优购是一个电商网站,我们要完成 PC 端首页、列表页、注册页面的制作 2. 品优购项目学习目的 1. 电商类网站比较综合,里面需要大量的布…

如何使用Python Flask搭建一个web页面并实现远程访问

文章目录 前言1. 安装部署Flask并制作SayHello问答界面2. 安装Cpolar内网穿透3. 配置Flask的问答界面公网访问地址4. 公网远程访问Flask的问答界面 前言 Flask是一个Python编写的Web微框架,让我们可以使用Python语言快速实现一个网站或Web服务,本期教程…

2014年苏州大学837复试机试C/C++

2014年苏州大学复试机试 要求 要求用C/C编程;对程序中必要的地方进行注释。上机规则 请在电脑桌面上新建一个文件夹文件夹名为考试姓名(中文);考试完毕后,将所编写的文件放在上述文件中。 第一题(20分&…

linux 运行vue项目

1:在本地电脑 项目跟目录 执行 npm run build 在根目录生成文件夹 dist 2:复制dist 到linux 上 /usr/vuespace/ledger-web/dist 3: 配置nginx server {listen 443 ssl;server_name tz.i569.cn; #填写绑定证书的域名ssl_certificate /etc/nginx/myconf…

如何搭建开源笔记Joplin服务并实现远程访问本地数据

文章目录 1. 安装Docker2. 自建Joplin服务器3. 搭建Joplin Sever4. 安装cpolar内网穿透5. 创建远程连接的固定公网地址 Joplin 是一个开源的笔记工具,拥有 Windows/macOS/Linux/iOS/Android/Terminal 版本的客户端。多端同步功能是笔记工具最重要的功能,…

【STM32】快速搭建工程

1. 快速生成工程 2.下载DFP包或者根据已有DFP包安装 3.拷贝现有工程的操作系统,应用层代码 debug 就完成最新工程的快速搭建 4.编译发现如下图 5.修改完这个报错,新工程建立基本完成,如果有其他错误,缝缝补补就可 比如 Main.c文…

广联达-EmailAccountOrgUserService-sql注入漏洞复现

产品简介 广联达OA是一款为企业提供综合办公解决方案的软件。它集成了多种功能,包括文档管理、流程审批、任务分配等,旨在提高企业内部的工作效率和协作能力。同时,广联达OA还注重安全性,通过多种措施保护企业数据和信息的安全。…

微博怎么把客户引流到私域?(引流技巧)

微博 1)背景banner图 在微博主页顶部的背景图里,可以引导添加个人微信、公众号等信息,通常配合福利引导用户添加。 2)个人简介 微博中比较常见的引流方式,可以直接在简介区内留下微信号、公众号名称、邮箱等信息&#…

[algorithm] 自动驾驶 规划 非线性优化学习系列之1 :车辆横向运动动力学详细解释

写在前面 最近时空联合规划很火,想学习。由于在学校主打学习新能源电力电子方向,转行后也想好好零散的知识体系。计划从车辆运动动力学习,模型预测控制(经典控制目前看主打应用,不会再去深入),…

【方法论】费曼学习方法

费曼学习方法是由诺贝尔物理学奖得主理查德费曼提出的一种学习方法。这种方法强调通过将所学的知识以自己的方式解释给别人来提高学习效果。 费曼学习方法的步骤如下: 选择一个概念:选择一个要学习的概念或主题。 理解和学习:用自己的方式学…

Ubuntu本地部署Nextcloud并结合内网穿透实现远程访问搭建个人云盘

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” 文章目录 摘要1. 环境搭建2. 测试局域网访问3. 内网穿透3.1 ubuntu本地安装cpolar3.2 创建隧道3.3 测试公网访…

【服务器APP】利用HBuilder X把网页打包成APP

目录 🌺1. 概述 🌼1.1 新建项目 🌼1.2 基础配置 🌼1.3 图标配置 🌼1.4 启动界面配置 🌼1.5 模块配置 🌼1.6 打包成APP 🌺1. 概述 探讨如何将网页转化为APP,这似乎…

[嵌入式系统-4]:龙芯1B 开发学习套件-1-开发版硬件介绍

目录 前言: 一、龙芯 1B 开发学习套件简介 1.1 概述 二、龙芯1B 200开发板硬件组成与接口介绍 2.1 概述 2.2 核心板 2.2.1 CPU 2.2.2 什么是核心板 2.2.3 龙芯1B 200核心板 2.2.4 龙芯1B核心板的接口定义 2.3 开发板 2.3.1 龙芯1B0200开发板 2.3.2 龙芯…

如何使用Everything随时随地远程访问本地电脑搜索文件

文章目录 前言1.软件安装完成后,打开Everything2.登录cpolar官网 设置空白数据隧道3.将空白数据隧道与本地Everything软件结合起来总结 前言 要搭建一个在线资料库,我们需要两个软件的支持,分别是cpolar(用于搭建内网穿透数据隧道…

【前沿技术杂谈:解释性人工智能】透视未来:解释性人工智能(XAI)在构建透明、可信AI世界中的角色

【前沿技术杂谈:解释性人工智能】透视未来:解释性人工智能(XAI)在构建透明、可信AI世界中的角色 引言揭开可解释性人工智能的面纱:定义、重要性与应用什么是可解释性AI?定义XAIXAI的目标 为什么需要可解释性…

智能水龙头行业研究:预计2028年将达到4.8亿美元

智能水龙头(智能水龙头)一般指智能感应水龙头。智能感应水龙头,智能节水:自动感应控制开、关,将手或盛水容器、洗涤物品伸入感应范围内,龙头即自动出水,离开后即停止出水。这种智能水龙头,伸手就来水&#…

Kotlin快速入门5

Kotlin的继承与重写 kotlin的继承 Kotlin中所有类都继承自Any类,Any类是所有类的超类,对于没有超类型声明的类是默认超类(Any 不是 java.lang.Object): class LearnKotlin // 默认继承自Any Any类默认提供三个函数…

PyInstaller 将 Python 程序生成可直接运行的程序

图标转换地址:https://convert.app/#google_vignette 官方文档:https://readthedocs.org/projects/pyinstaller/downloads/pdf/stable/#page20 安装pyinstaller pip install pyinstaller执行打包 pyinstaller -i ./resource/w.icns -w -F whv.py --a…

开始学习第二十五天(番外)

今天分享一下写的小游戏啦 头文件game.h #include<stdio.h> #include<time.h> #include<stdlib.h> #define H 3 #define L 3 void InitBoard(char Board[H][L], int h, int l); void DisplayBoard(char Board[H][L], int h, int l); void playermove(cha…

幻兽帕鲁越玩越卡,内存溢出问题如何解决?

近期幻兽帕鲁游戏大火&#xff0c;在联机组队快乐游玩的同时&#xff0c;玩家们也发现了一些小问题。由于游戏有随机掉落材料的设定&#xff0c;服务器在加载掉落物的过程中很容易会出现掉帧、卡顿的情况。某些玩家甚至在游戏1&#xff5e;2时后就出现服务器崩溃的情况&#xf…