Hadoop集群破坏试验可靠性验证

集群环境说明:

准备5台服务器,hadoop1、hadoop2、hadoop3、hadoop4、hadoop5;
分别部署5个节点的zookeeper集群、hadoop集群、hbase集群

本次对于Hadoop集群测试主要分为五个方面:

  1. 手动进行datanode节点删除:(阵列卡电池损坏或者添加内存条等情况需要停机,需要手动删除节点,停止服务器运行)无需重启集群服务,保证文件系统的高可用性,数据的完整性,最后验证block副本数目在节点删除后是否恢复到默认设置(即3个副本)
  2. 手动进行datanode节点添加:(有淘汰的旧服务器不使用了,加入hadoop集群增加集群存储容量及节点数等)无需重启集群服务,验证数据的可靠性,架构的可扩展性,数据完整性等。
  3. datanode节点被动删除:(服务器主板损坏,网络故障、操作系统故障等导致主机宕机)
    datanode每三秒种向namenode发送心跳如果10分钟没有发送心跳,则namenode认为该datanode已经dead,namenode将取出该datanode上对应的block,对其进行复制。
    测试过程,在hadoop的文件系统上创建一个30M文件,查看block副本文件的具体分布在哪三个datanode上面,确保第四个节点上 无此副本,对其中一个节点执行关机操作,等待10分钟后,namenode节点确认datanode死掉后对其block副本进行复制。查看第四个 datanode上是否有新的block副本,即:副本数目又达到3个。验证正常后下载文件,看文件是否能正常使用。
  4. Datanode节点的磁盘损坏(所有磁盘完全坏掉,或者只是存放block副本的磁盘损坏)
    此节点DataNode正常服务,坏掉的磁盘上的数据尽快通知Namenode,namenode对数 据块进行复制,查看第四个datanode节点上是否新增了数据块(所损坏磁盘的datanode上存储的数据块)
  5. 人为原因操作失误删除了datanode节点上的数据块(此情况与4的磁盘损坏相似)
    手动删除block数据块存放目录下的block文件,看一下多长时间恢复,在哪里恢复?

故障场景一、

手动删除集群中任何一台datanode数据节点
【测试描述】
模拟集群中hadoop2数据节点故障(datanode节点数量应该大于dfs.replication设置的文件块复制数,否则在删减datanode时不会成功,一直处于Decommission in process的状态)

【测试步骤】

  1. 把每个datanode节点的Block数量重定向一个目标文件为1.txt
  2. 本地上传一个30M的file.222文件到hdfs文件系统中,验证是否只有3个datanode节点有数据块?
  3. 再次统计每个datanode节点的Block数量重定向到目标文件2.txt,并且与1.txt文件比较有没有增加数据Block
    a) hadoop2数据节点已增加一个数据块
    b) hadoop3数据节点已增加一个数据块
    c) hadoop4数据节点已增加一个数据块
    d) hadoop5数据节点未增加一个数据块
  4. 在namenode节点hadoop家目录的conf目录下新建一个excludes的文件,写上需要remove的节点IP地址,一行只能一个IP。
  5. 修改namenode节点的主配置文件core-site.xml,在configuration内增加如下内容:
  6. 在namenode节点执行hadoop dfsadmin –refreshNodes命令,它不用重启集群服务去读取core-site.xml配置文件,也会在后台进行Block块的移动,从移除的Nodes上移动到其它的Nodes上面。
  7. 通过hadoop dfsadmin –report查看集群状态能查看到数据是否移除完毕。只有hadoop2数据节点状态是移除状态。
    观察一段时间后,等Decommissioned in progress状态变为Decommissioned后,表示此移除的Nodes节点上的所有数据块已全部被复制到其它工作正常的Nodes上,应为3份。
    网页上也会显示把移除的节点剔除列表
  8. 验证hadoop5数据节点是否有上传过30M文件的数据块
  9. 下载hdfs文件系统中的file.222文件到本地,并且验证hbase是否可用

【测试结果】
hadoop集群中手动删除任何其中一台datanode节点,对文件系统没有任何影响。

故障场景二、

手动增加一台datanode数据节点到集群
【测试描述】
模拟往正在运行的hadoop集群中增加一台datanode数据节点,验证是否影响文件系统的使用?
【测试步骤】

  1. 新datanode节点上部署jdk、hadoop、hbase、zookeeper软件,保证和所以集群中的机器的目录结构一致。并且配置相应的环境变量。
  2. 在新datanode节点和namenode节点之间建立无密码认证关系。实现互相登录不需要密码。
  3. 设置datanode节点的hosts文件和集群中所有的机器hosts文件一致。
  4. Namenode节点的slaves文件增加上相应的节点,并且Namenode的hosts文件也增加新节点。
  5. 在新节点启动datanode和tasktracker进程。如下图已把hadoop2数据节点加入到hadoop集群中了。中间一些其余的截图已省略。

【测试结果】
往hadoop集群中手动增加一台datanode不影响文件系统和hbase数据库的查看和使用。

故障场景三、

集群中其中一台datanode数据节点出现自动宕机故障。(此方法有点类似第一种)
【测试描述】
模拟hadoop集群中其中一台datanode数据节点宕机故障,验证是否影响文件系统和hbase的使用?

【测试步骤】

  1. 本地上传一个大小为30M的文件上传到集群文件系统。
  2. 查看哪三台机器上面有Block块的新增。分别是hadoop2、hadoop4、hadoop5三台机器
  3. 在任何一台有数据块的datanode节点执行关机操作,这里选择hadoop4机器。
  4. 观察集群的状态,Last Contact表示最后一次检查时间
    十分钟之后再刷新一下网页会显示,宕机的节点已经被自动从集群中踢除了。
  5. 查看hadoop2主机没有Block块文件的节点是否已经有块文件复制过去?这样就实现达到了复制三份的目的了。
  6. 验证能否从文件系统下载test.file文件和hbase的使用?

【测试结果】
hadoop集群中任何一台datanode节点意外宕机,不会影响文件系统和hbase的使用。

故障场景四

集群中其中一台datanode数据节点硬盘故障。
【测试描述】
模拟hadoop集群中其中一台datanode数据节点硬盘故障,验证是否影响文件系统和hbase的使用?

【测试步骤】

  1. 手动拔掉hadoop2节点的所有硬盘,hadoop集群仍然运行
  2. namenode节点会检查每个正常工作datanode的文件块是否都为3份,如果不是则会备份成3份放到正常工作的datanode节点中。
  3. 在任何别的节点上查看和读取文件系统的数据一切正常。
  4. hbase也一切正常。

【测试结果】
hadoop集群中任何节点的硬盘故障对数据存储的完整性无影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/212404.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

typedef 与#define 的区别

typedef 与#define 的区别 typedef : 给一个已经存在的数据类型(注意:是类型不是变量)取一个别名,而非定义一个新的数据类型 #define宏定义: #define宏定义:在预编译时直接进行简单的文本替换 举…

WIFI直连(Wi-Fi P2P)

一、概述 Wifi peer-to-peer(也称Wifi-Direct)是Wifi联盟推出的一项基于原来WIfi技术的可以让设备与设备间直接连接的技术,使用户不需要借助局域网或者AP(Access Point)就可以进行一对一或一对多通信。这种技术的应用…

计算机毕业设计 SpringBoot的乐乐农产品销售系统 Javaweb项目 Java实战项目 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

Xmanager

什么是 XManager Xmanager 是市场上领先的 PC X 服务器,可将X应用程序的强大功能带入 Windows 环境。 提供了强大的会话管理控制台,易于使用的 X 应用程序启动器,X 服务器配置文件管理工具,SSH 模块和高性能 PC X 服务器。 Xman…

javaScript(六):DOM操作

文章目录 1、DOM介绍2、DOM:获取Element对象3、DOM:事件监听3.1、事件介绍3.2、常见事件3.3、设置事件的两种方式3.4、事件案例 1、DOM介绍 概念 Document Object Model ,文档对象模型 将标记语言的各个组成部分封装为对应的对象&#xff1a…

Realme X7 Pro Root 刷机教程

Realme X7 Pro 刷机教程 Just For Fun,最近倒腾了下Realme X7 Pro 刷root。此博客为个人记录刷机过程,如有机友跟随本教程操作,请谨慎操作!!! 以下教程真针对Realme X7 Pro,其他版本方法未知&…

springboot(ssm高校竞赛管理系统 在线竞赛平台 Java系统

springboot(ssm高校竞赛管理系统 在线竞赛平台 Java系统 开发语言:Java 框架:ssm/springboot vue JDK版本:JDK1.8(或11) 服务器:tomcat 数据库:mysql 5.7(或8.0) 数…

qt 模型视图结构

在Qt中,Model、View和Delegate三者之间的关系如下: Model(模型):Model是数据的抽象表示,它提供了一种结构化的方式来存储和管理数据。Model负责维护数据的状态,并提供接口供其他组件&#xff08…

【Flutter】vs2022上开发flutter

在vs上开发flutter,结果扩展仓库上没办法找到Dart,Flutter。 在 这 搜索Dart时也无法找到插件。 最后发现是安装工具出错了 安装了 开发需要的是

挖漏洞之文件上传

(一)漏洞原理 文件上传漏洞是指由于程序员在对用户文件上传部分的控制不足或者处理缺陷,而导致的用户可以越过其本身权限向服务器上上传可执行的动态脚本文件。这里上传的文件可以是木马,病毒,恶意脚本或者WebShell等。…

从线性回归到神经网络

目录 一、线性回归关键思想 1、线性模型 2、基础优化算法 二、线性回归的从零开始实现 1、生成数据集 2、读取数据集 3、初始化模型参数 4、定义模型 5、定义损失函数 6、定义优化算法 7、训练 三、线性回归的简洁实现 1、生成数据集 2、读取数据集 3、定义模型…

论文代码阅读:TGN模型训练阶段代码理解

文章目录 [toc] TGN模型训练阶段代码理解论文信息代码过程手绘代码训练过程compute_temporal_embeddingsupdate_memoryget_raw_messagesget_updated_memoryself.message_aggregator.aggregateself.memory_updater.get_updated_memoryMemoryget_embedding_moduleGraphAttentionE…

什么是W3C标准? 什么要遵循?

Hi i,m JinXiang ⭐ 前言 ⭐ 本篇文章主要介绍HTML5中W3C的标准,需要遵循的规则以及部分理论知识 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主收将持续更新学习记录获,友友们有任何问…

【AIGC】Midjourney高级进阶版

Midjourney 真是越玩越上头,真是给它的想象力跪了~ 研究了官方API,出一个进阶版教程 命令 旨在介绍Midjourney在Discord频道中的文本框中支持的指令。 1)shorten 简化Prompt 该指令可以将输入的Prompt为模型可以理解的语言。模型理解语言…

Git初学入门指令

git基本指令 初始化&#xff1a; git init查看状态&#xff1a; git status新建文件&#xff1a; touch <filename>加入暂存区&#xff1a; git add . 或者 git add -A 表示全部加入暂存区 git add <filename>单个文件加入暂存区加入仓库&#xff1a; …

PCIe中断总结-各个中断的区别

1.简介&#xff1a; PCIe中断支持三种传输方式&#xff1a; • Legacy: 也称传统中断&#xff0c;Legacy PCI中断机制,每个PCI设备最多支持四个中断信号(边带信号:INTA# INTB# INTC# INTD#) • MSI(Message Signaled Interrupt): Post Memory Write,只支持32个中断向量 • MSI…

力扣labuladong一刷day35天

力扣labuladong一刷day35天 文章目录 力扣labuladong一刷day35天一、98. 验证二叉搜索树二、700. 二叉搜索树中的搜索三、701. 二叉搜索树中的插入操作四、450. 删除二叉搜索树中的节点 一、98. 验证二叉搜索树 题目链接&#xff1a;https://leetcode.cn/problems/validate-bi…

【Linux】如何对文本文件进行有条件地划分?——cut命令

cut 命令可以根据一个指定的标记&#xff08;默认是 tab&#xff09;来为文本划分列&#xff0c;然后将此列显示。 例如想要显示 passwd 文件的第一列可以使用以下命令&#xff1a;cut –f 1 –d : /etc/passwd cut&#xff1a;用于从文件的每一行中提取部分内容的命令。-f 1&…

Sql server数据库数据查询

请查询学生信息表的所有记录。 答&#xff1a;查询所需的代码如下&#xff1a; USE 学生管理数据库 GO SELECT * FROM 学生信息表 执行结果如下&#xff1a; 查询学生的学号、姓名和性别。 答&#xff1a;查询所需的代码如下&#xff1a; USE 学生管理数据库 GO SELE…

为什么需要 Kubernetes,它能做什么?

传统部署时代&#xff1a; 早期&#xff0c;各个组织是在物理服务器上运行应用程序。 由于无法限制在物理服务器中运行的应用程序资源使用&#xff0c;因此会导致资源分配问题。 例如&#xff0c;如果在同一台物理服务器上运行多个应用程序&#xff0c; 则可能会出现一个应用程…