proxmox集群节点崩溃处理


问题描述

 

在现有集群加入一个物理节点,接着再此节点创建ceph监视器、创建OSD。从宿主机系统执行ceph osd tree查看状态,创建起来的几个OSD状态都正常(up),从proxmox管理界面看也是这样。

 

突然不知道什么原因,刚加入的节点就突然不能从集群中失效了。

image.png

再进宿主机系统查OSD状态,居然自己从up变成down。新增节点没数据,于是就试试重启,看能不能正常。重启以后,网络能通,ssh不能连接,web管理界面也不能访问。接下来,需要先把故障节点从集群中撤离出来,恢复以后,再加入集群。

 

从集群中删除故障节点

 

按操作顺序分两个步骤:从集群中删除故障ceph和从集群中删除物理节点。

 

ü  从集群中删除故障ceph

1.       登录集群任意物理正常节点系统,执行如下命令查看ceph osd状态:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                          

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2        up  1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                        

9           hdd  1.63669         osd.9    down        0 1.00000

10     hdd  1.63669         osd.10   down          0 1.00000

从输出可知物理节点pve51的两个OSD有问题,需要删除。

2.       离线有问题的ceph osd,执行的操作如下:

root@pve48:~# ceph osd out osd.9

osd.9 is already out.

root@pve48:~# ceph osd out osd.10

osd.10 is already out.

操作时要仔细,别把正常的osd离线了。

3.       删除已经离线osd认证信息,执行的操作如下:

root@pve48:~# ceph auth del osd.9

updated

root@pve48:~# ceph auth del osd.10

updated

 

4.       彻底删除故障osd,操作如下:

root@pve48:~# ceph osd rm 9

removed osd.9

root@pve48:~# ceph osd rm 10

removed osd.10

注意:此操作ceph最后一列参数与前边的不同,是纯数字格式!!!

5.       查看集群osd状态,操作如下:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                             

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2      up    1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                         

9           hdd  1.63669         osd.9     DNE        0        

10     hdd  1.63669         osd.10    DNE          0  

操作完成后,故障节点的osd状态从down变成了DNE

6.       删除故障节点的ceph磁盘,操作如下:

root@pve48:~# ceph osd crush rm osd.9

removed item id 9 name 'osd.9' from crush   map

root@pve48:~# ceph osd crush rm osd.10

removed item id 10 name 'osd.10' from crush   map

 

7.       从ceph集群中删除物理节点,操作如下:

root@pve48:~# ceph osd crush rm  pve51

removed item id -9 name 'pve51' from crush   map

 

8.       执行指令 ceph osd tree 查看状态,看是否把故障节点从ceph集群清理出去。

 

ü  从集群中删除故障节点

 

Ø  集群上的操作

登录集群中任意正常节点,执行如下指令进行驱逐操作:

root@pve48:~# pvecm  delnode pve51

Killing   node 4

 

Ø  故障机恢复操作

最好全部干掉,重新安装系统,并用新的ip地址,加入集群。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/537390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python csv转excel_将Excel文件转为csv文件的python脚本

将Excel文件转为csv文件的python脚本 #!/usr/bin/env python __author__ "lrtao2010"Excel文件转csv文件脚本 需要将该脚本直接放到要转换的Excel文件同级目录下 支持xlsx 和 xls 格式 在同级目录下生成名为excel_to_csv.csv 的文件,采用UTF-8编码import…

第15章 知识管理

知识分类 显性知识 教科书、文章、发文等纸质、电子发行转播的内容 公式,程序,说明书等 隐性知识 语言文字说不清的 习惯,诀窍,信念等 知识管理方法 显性知识 创造更多的交…

前端多图片上传怎么控制顺序_Web前端经典面试题有哪些 如何能走向高薪之路...

Web前端经典面试题有哪些?如何能走向高薪之路?Web前端在近几年是越来越火热了,很多人看到了前端的高薪资,更看到了前端行业的发展前景,所以纷纷投入到学习前端技术学习中来。下面给大家总结整理一些Web前端经典面试题&…

第17章 战略管理

组织战略 战略目标 出发点 战略方针 基本依据 战略实施能力 内部外部 战略措施 重要保障 战略分解过程 自上而下 战略实施四个阶段 战略启动阶段 战略计划实施阶段 战略运作阶段 战略控制与评估阶段 组…

设计几个简单的汇编函数

原创 已知符号函数 Y 1 &#xff08;当X>0&#xff09;, 0 &#xff08;当X0&#xff09;&#xff0c;-1 &#xff08;当X<0&#xff09; 设任意给定的X&#xff08;-128≤X≤127&#xff09;存放在DTX单元&#xff0c;计算函数Y值&#xff0c;要求存放在DTY单元中。 采用…

第16章 变更管理

变更原因 产品范围&#xff08;成果&#xff09;定义的过失或疏忽 项目范围&#xff08;工作&#xff09;定义的过失或疏忽 增值变更&#xff0c;客户提了新需求 应对风险的紧急计划或回避计划 项目执行过程与基准要求不一致带领的被动调整 外部事件 …

python2.7是什么_python2.7是什么

pyton2.7是python在2010年发布的一个版本。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言&#xff0c;具有很强的可读性&#xff0c;相比其他语言经常使用英文关键字&#xff0c;其他语言的一些标点符号&#xff0c;它具有比其他语言更有特色语法结构…

iOS12

ios 12 中的新特性。 已经有很多文章写得很好&#xff0c;这里不再赘述&#xff0c;直接给大家几个传送门&#xff1a; https://sspai.com/post/47168 https://post.smzdm.com/p/771705/ https://www.jianshu.com/p/dde4fef41c4b https://www.jianshu.com/p/8b49fc037a89 http:…

解决windows指纹登录不灵问题

原因&#xff1a;不是指纹设备问题&#xff0c;是windows把指纹设备关了。 解决方法&#xff1a;进入设备管理器&#xff0c;找到生物指纹&#xff0c;按下图操作

DEVEXPRESS---TREELIST的使用

最近正在做一个信息收发功能&#xff0c;需要使用TREELIST控件&#xff0c;但又没接触过&#xff0c;随即被卡2小时。。。。 主要卡点在于如何实现父节点选择后级联选择子节点。 在CSDN上找到文章&#xff1a;https://blog.csdn.net/jiankunking/article/details/24231075转载于…

OSI七层模型白话解释

各层设备 应用层……………….计算机&#xff1a;应用程序&#xff0c;如FTP&#xff0c;SMTP&#xff0c;HTTP 表示层 ……………….计算机&#xff1a;编码方式&#xff0c;图像编解码、URL字段传输编码 会话层 ……………….计算机&#xff1a;建立会话&#xff0c;SESSI…

利用类定义一个指针会调用默认构造函数吗_C++的拷贝构造函数

拷贝构造函数是一种特殊的构造函数&#xff0c;它在创建对象时&#xff0c;是使用同一类中之前创建的对象来初始化新创建的对象。拷贝构造函数通常用于&#xff1a;通过使用另一个同类型的对象来初始化新创建的对象。复制对象把它作为参数传递给函数。复制对象&#xff0c;并从…

开发应用层的需要了解 framework层吗?---不需要!!!!

写于2015年12月3日 不同的android版本&#xff0c;不同的framework实现&#xff0c;framework有近2亿行代码&#xff0c;版本越高&#xff0c;代码行数越大&#xff0c;这个过程是很痛苦的。所以不要去学习和阅读framework的源代码。 阅读它的源代码&#xff0c;还不如去学英…

51CTO会员开通成功!开森!

很好&#xff0c;是理想中的学习平台&#xff0c;果断买了&#xff01;^_^ 开森ing 转载于:https://blog.51cto.com/13601545/2324935

一个请求多个响应_一个TCP连接到底可以发多少个HTTP请求?

曾经有这么一道面试题&#xff1a;从 URL 在浏览器被被输入到页面展现的过程中发生了什么&#xff1f;相信大多数准备过的同学都能回答出来&#xff0c;但是如果继续问&#xff1a;收到的 HTML 如果包含几十个图片标签&#xff0c;这些图片是以什么方式、什么顺序、建立了多少连…

手机定位功能为什么打开WiFi(不连接) 就会非常的准 ?如果WiFi 迁到其它地方去了呢?

Wifi定位地图在需要定位的时候&#xff0c;一般会优先用GPS的定位结果&#xff0c;一般来说GPS最准。如果没有GPS的定位结果的话&#xff0c;那一般就退而求其次用Wifi的定位结果。 原理是这样的&#xff1a; 1、手机收集它能够搜索到的Wifi的信息&#xff1b; 2、提交Wifi信…

JxBrowser概述与简单应用

Q&#xff1a;JxBrowser是什么&#xff1f; JxBrowser是一个跨平台的Java库&#xff0c;允许将基于Google Chromium的Web浏览器组件集成到Java Swing / AWT / JavaFX应用程序中。使用JxBrowser&#xff0c;您可以将轻量级Swing / JavaFX组件嵌入到Java应用程序中&#xff0c;以…

我的达内Java培训经历

我当时2009年参加达内培训是在学校里,达内与我们学校合作。当时培训班只开了一个班,有位班主任,因为是第一届,学生也少,不到20个,所以不是老师现场教的,看视频学习的,视频是录播的。班主任负责培训班日常管理工作,和技术答疑。培训视频是投影仪放。当时培训java基础的…

小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

如今的小米不仅是一家手机公司&#xff0c;更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展&#xff0c;数据中的商业价值也愈发突显。而与此同时&#xff0c;各业务团队在数据查询、分析等方面的压力同样正在剧增。因此&#xff0c;为帮助公司各业务线解决这些…

旧电脑升级Win11

2014年的联想Y430P升级成功 升级很简单 第一步&#xff1a;下载win11系统安装包&#xff0c;下载地址&#xff1a;系统之家 - Win11系统 第二步&#xff1a;下载KMS激活工具&#xff0c;下载地址&#xff1a;https://www.jb51.net/softs/668522.htmlhttps://www.jb51.net/sof…