Oracle Server一台价值百万的服务器内存更换过程

数据库代码敲多了,看乏了吧!

带各位DBA看看你们的数据库运行在什么样的硬件上。

1、故障现象

事发时2号位置报警

image.png

登录ILO发现内存报警

image.png

查看详细信息

image.png

查看详细报警

image.png

2、关于ORACLE 服务器DIMM 备用

默认情况下在 Oracle ILOM 中启用 DIMM 备用。由 DIMM 提供的物理地址空间由于性能原因而交错。在完全配置的服务器中,支持 16 向和 15 向交错。这意味着,如果您从中启动系统或 PDomain 的服务器上的其中一个 CMIOU 上存在不可用的 DIMM,则该 CPU 节点仍可提供 15 个 DIMM 的物理地址空间而不必降至 8 向交错,8 向交错仅提供 8 个 DIMM 的物理地址空间。

此外,为了最大限度地提高系统可用性,如果在系统运行时诊断出一个 DIMM 发生了故障,则内存会通过将故障 DIMM 的内容分配到其他 15 个 DIMM 来动态地从 16 向交错切换到 15 向交错。要启用这种重新分配,平台固件必须为一个 DIMM 的内容保留空间。结果,尽管将 DIMM 配置为 16 向交错,但是系统只能使用 15 个 DIMM 的物理地址空间。

DIMM 备用在各个 CPU 节点(即 CMIOU)上启用。因此,在完全装载的 SPARC M7-8 服务器(包含两个 PDomain)上,每个 PDomain 中最多可以有 4 个 DIMM 发生故障,服务器上总共可以有 8 个 DIMM 发生故障。对于具有一个 PDomain 的 SPARC M7-8 服务器,每个 DCU 中最多可以有 8 个 DIMM 发生故障,而对于 SPARC M7-16 多主机服务器,每个 DCU 中最多可以有 4 个 DIMM 发生故障,因此服务器上总共可以有 16 个 DIMM 发生故障。

注 -  DIMM 备用在完全填充的 CMIOU 上默认处于启用状态。DIMM 备用在半填充的 CMIOU 上未启用。如果系统在引导时或运行时必须取消配置某个 DIMM,则会将关联的故障视为不可维修故障,因此不会发出维修通知。所以,如果取消配置了某个 DIMM,则在另一个 DIMM 发生故障之前无需更换该 DIMM。如果系统必须在半填充的 CMIOU 上取消配置某个 DIMM,将会发出维修通知。

3、服务器关机下电

由于SPARC M7-8服务器CPU共线程数太多了,计算资源十分的充足,一般这种机器都做了虚拟化,solaris上一般叫ldom

我这里共2台物理主机,每1台上运行4个虚拟机,运行Oracle 12.2 的RAC。

先对虚拟机里的系统进行关机,再在物理机上查看虚拟机状态

root@solaris-up:~# ldm lsNAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 42m
ldm1 active -t---- 5000 320 896G 0.0% 0.0% 3m
ldm2 active -t---- 5001 224 448G 0.0% 0.0% 1m
ldm3 active -t---- 5002 192 384G 0.0% 0.0% 3m
ldm4 active -t---- 5003 80 210G 0.0% 0.0% 3m

执行命令关闭LDOM虚拟机

root@solaris-up:~# ldm stop ldm1 && ldm stop ldm2 && ldm stop ldm3 && ldm stop ldm4
Remote graceful shutdown or reboot capability is not available on ldm1
LDom ldm1 stopped
Remote graceful shutdown or reboot capability is not available on ldm2
LDom ldm2 stopped
Remote graceful shutdown or reboot capability is not available on ldm3
LDom ldm3 stopped
Remote graceful shutdown or reboot capability is not available on ldm4
LDom ldm4 stopped

确认状态都为bond。

root@solaris-up:~# ldm lsNAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 43m
ldm1 bound ------ 5000 320 896G
ldm2 bound ------ 5001 224 448G
ldm3 bound ------ 5002 192 384G
ldm4 bound ------ 5003 80 210G

准备关机更换内存

主机执行init0关机

登录到ILO管理系统里,关闭主机

-> stop /SystemAre you sure you want to stop all of the configured hosts on the system (y/n) y
Stopping /System
stop:
/HOST0: Stopping
/HOST1: Stopping

4、拆下CMMIOU

根据之前的报警确认是CMMIOU2里的内存故障,这里可以在背面检查CMMIOU2的报警灯是否亮起,确认好位置

image.png

按下图的方法拆下CMMIOU

image.png

5、更换内存

找到、按下并按住 CMIOU 上的蓝色故障提醒按钮。

亮起的绿色故障提醒电源 LED 表示有电 可用于点亮有故障的 DIMM LED。任何有故障的 DIMM 都由 DIMM 插槽旁边的琥珀色 LED,直到您松开按钮。

确认主板上的内存位置和报错的位置一致,直接更换内存就行

image.png

现场进行更换

image.png

内存长这个样子,这一批用的时三星的DDR4内存条32G

image.png

6、设备开机

-> start /SystemAre you sure you want to start all of the configured hosts on the system (y/n)? y
Starting /System
start:
/HOST0: Starting
/HOST1: Starting

等待设备加电自检,时间会很长,一般在1小时-1.5小时左右。当然也可以取巧把检测都关了,试过最快15分钟开机。。。。

879014a94fa63846e325a1f5af84e22.jpg

最后打开虚拟机完成更换

怎么样,看完了是不是非常简单!!

参考

SPARC M8 and SPARC M7 Servers Administration Guide

SPARC M8 and SPARC M7 Servers Service Manual

Oracle® ILOM 配置和维护管理员指南

也欢迎关注我的公众号【徐sir的IT之路】,一起学习!

————————————————————————————
公众号:徐sir的IT之路
CSDN :徐sir(徐慧阳)-CSDN博客
墨天轮:徐sir的个人主页 - 墨天轮
PGFANS:PGFans问答社区:全球唯一的PostgreSQL中文技术交流社区

————————————————————————————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/666784.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[linux] kolla-ansible 部署的openstack 修改mariadb默认端口号

kolla-ansible 部署前修改global.yml #freezer_database_backend: "mariadb" database_port: 9306 mariadb_port: 9306如果已经部署成功,直接修改配置文件里的端口号重启是没有用的,怀疑内部做了缓存,查看openstack 使用的memcach…

yarn/npm certificate has expired

目录 报错 原因:HTTPS 证书验证失败 方法 a.检查网络安全软件:可能会拦截或修改 HTTPS 流量 b.strict-ssl:false关闭验证【临时方法】 报错 info No lockfile found. [1/4] Resolving packages... error Error: certificate has expired at TLS…

Unity类银河恶魔城学习记录1-12 PlayerComboAttack源代码 P39

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili PlayerPrimaryAttack.cs using System.Collections; using System.Collect…

音箱、功放播放HDMI音频解决方案之HDMI音频分离器HHA

HDMI音频分离器HHA简介 HDMI音频分离器HHA具有一路HDMI信号输入,转换成一路HDMI信号、一路5.1光纤音频信号、一路5.1 SPDIF/同轴音频信号和一路模拟左右声道立体声信号输出,同时还支持EDID存储及兼容HDCP功能;分辨率最高支持1920*1080p&#…

国产软件很流氓?4款没有广告的黑科技软件,白嫖党有福了

提到国产软件,许多人可能会想到一些负面的标签,如“流氓、捆绑、广告多”。然而,事实上,国内也有许多良心软件,不仅功能强大,而且完全免费。 1、原本(图片处理神器) 在日常生活中和…

国内最全的Spring Boot系列之七

• 阿里巴巴前高级研发工程师 • 三家千万级互联网企业技术顾问 • MBTI/盖洛普技术专家 • 厦门某高校外聘教师 • 51CTO特约合作讲师 • 网易云课堂签约讲师 •《深入理解设计模式》作者 一转眼马上要过年了,回首2023年,感觉自己无所事事、碌碌无…

[SWPUCTF 2021 新生赛]ez_unserialize

根据下面的user_agent和Disallow可以判断这个是在robots.txt 我们看的出来这是一个反序列化需要我们adminadmin passwdctf construct 构造方法,当一个对象被创建时调用此方法,不过unserialize()时却不会被调用 destruct 析构方法,PHP将在对象…

FastCAE合作开发项目更新:OpenFOAM求解器集成

开发内容 1. 参数化建模,可根据模型参数、块参数、样条参数生成前处理模型并进行三维展示 2. 前处理网格生成,可根据流域参数生成二维面网格或三维体网格,可调节网格基本尺寸,可设置生成棱柱层及棱柱层参数,网格加密…

Vulnhub靶机:hacksudo2 (HackDudo)

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:hacksudo2 (HackDudo)(10.0.2.44) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnh…

【Win10下实现开机Jar启动的CICD自动化流程】

目录 在Win10下实现开机Jar启动的CICD自动化流程,可以按照以下步骤进行操作:在Win10下实现开机Jar启动的CICD自动化流程,可以按照以下步骤进行操作: 安装Java环境:确保你的计算机上已经安装Java环境,可以通过命令行运行java -version来验证Java环境是否已安装。 编写启动…

DS:时间复杂度和空间复杂度

创作不易,感谢三连! 一、算法 1.1 什么是算法 算法(Algorithm):就是定义良好的计算过程,他取一个或一组的值为输入,并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤,用来将输入数据转化成输出结果。…

Qt---资源文件添加

Qt—资源文件添加 Qt 资源系统是一个跨平台的资源机制,用于将程序运行时所需要的资源以二进制的形式存储于可执行文件内部。如果编写的程序需要加载特定的资源,那么将其放置在资源文件中,便不需要担心文件的缺失。 1 需求 为菜单栏设置图标&…

【OpenCV人脸检测】写了个智能锁屏小工具!人离开电脑自动锁屏

文章目录 1. 写在前面2. 设计思路3. 人脸检测4. 程序实现 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感兴趣的朋…

人体生物钟程序设计(C语言)

前几年在本站发布过博文介绍人体生物钟程序的制作方法。后来发现上传后显示的博文有错漏,计算符号脱漏。这会误导读者。今修订整理重新发布,展示一下漂亮的界面设计。 人体生物钟也就是人体生物节律。人体生物节律是自然进化赋予生命的基本特征之一&…

基于uniapp+vue酒店宾馆客房民宿管理系统设计 微信小程序_54ybz

APP性能需求 (1)顾客在安卓APP页面各种操作可及时得到反馈。 (2)该平台是提供给多个用户使用的平台,用户使用之前需要注册登录。登录验证后,用户才可进行各种操作[10]。 (3)管理员、…

Redis客户端有哪些:你了解吗?

一、分类 Redis客户端工具是用来连接和管理redis服务器的软件,它们可以有不同的类型,如桌面客户端、web客户端和IDE插件。不同的客户端工具有各自的优缺点和特色,你可以根据你的需求和喜好选择合适的工具。 1、Redis 命令行工具 redis-cli官…

【洛谷】P1434滑雪

#include<iostream> #include<string.h> using namespace std;const int N 310; int h[N][N]; int f[N][N]; int n,m;int dx[4] {1,0,-1,0}, dy[4] {0,-1,0,1};int dp(int x,int y) {// 如果点(x,y)已经去到过了&#xff0c;直接返回结果就行if(f[x][y] ! -1) r…

sqli.labs靶场(29到40关)

29、第二十九关 id1 id1 尝试发现是单引号闭合&#xff0c; -1 union select 1,2,3-- -1 union select 1,2,database()-- -1 union select 1,2,(select group_concat(table_name) from information_schema.tables where table_schemasecurity)-- -1 union select 1,2,(select…

Python对日期的一些操作

1. 把这种日期 Mon Jan 29 11:10:49 0800 2024 转换成 ‘2024/2/1 10:50:38’ 这里定义一个func 传入英文日期&#xff0c;返回标准日期格式 def time_formater(input_time_str): input_format %a %b %d %H:%M:%S %z %Y output_format %Y-%m-%d %H:%M:%S return dat…

69.请描述Spring MVC的工作流程?描述一下 DispatcherServlet 的工作流程?

69.请描述Spring MVC的工作流程&#xff1f;描述一下 DispatcherServlet 的工作流程&#xff1f; 核心架构的具体流程步骤如下&#xff1a; 首先用户发送请求——>DispatcherServlet&#xff0c;前端控制器收到请求后自己不进行处理&#xff0c;而是委托给其他的解析器进行…