Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网)

NameNode(名称节点,Master主节点)

NameNode主要功能

        1、NameNode负责管理HDFS文件系统的元数据,包括文件,目录,块信息等。它将元数据Fsimage与Edit_log持久化到硬盘上。一个是Fsimage(镜像文件),一个是Edit_log(操作日志)。

        Fsimage是一个静态映像,保存了文件系统的整体状态信息,包括文件、目录结构、权限、块信息等,它记录了文件和目录的层次结构以及其属性;

        edit_log则包含了最近发生的文件系统变更的日志记录。通过这两个文件,NameNode能够恢复文件系统的状态。(下头有一个小案例)

       2、当客户端请求读取文件时,NameNode会确定该文件的位置信息,并将这些信息返回给客户端,以便客户端可以直接与相应的DataNode进行通信并获取所需数据。

突然断电恢复时HDFS做了什么(IM理论)

        当突然断电并重新启动时,Fsimage与Edit_log在恢复中起着很大的作用。

        第一步,Fsimage是HDFS的元数据镜像文件,保存了文件系统整体状态信息,包括文件、目录结构,权限,块信息等,他记录了文件和目录层次结构及属性。HDFS重启时,会先读取NameNode中的Fsimage文件,恢复文件系统初始状态。

        第二步,Edit_log是HDFS的事务日志文件,用于记录所有对文件系统的修改操作,例如创建,删除,重命名文件或者目录等。每个修改操作都被追加到Editlog中,确保对文件系统更改的持久化记录。HDFS重启后,程序会读取Editlog文件,并将其中的每个操作应用到初始状态的文件系统中,以此恢复文件系统的最新状态。

        在HDFS突然断电并重新启动时,系统通过读取Fsimage文件来恢复文件系统的初始状态,然后再将Editlog中的操作应用到初始状态的文件系统,实现文件系统的完全恢复。保证了数据的一致性和可靠性,避免数据丢失或损坏。(很重要!)

Checkpoint机制(检查点)

checkpoint功能:HDFS为了将Fsimage与Editlog文件合并成完整的文件系统镜像而使用的一种机制。

        Edits文件和Fsimage文件的合并关系是通过Checkpoint过程实现的,Checkpoint将当前的Fsimage文件和最新的Edits文件合并为一个新的Fsimage文件,从而得到最新的文件系统镜像。

checkpoint流程:执行Checkpoint过程时,HDFS会首先将当前的Fsimage文件复制到一个临时的目录中,随后将新的editlog文件追加到复制的Fsimage文件中,最后生成一个新的Fsimage文件。

        这个过程中确保了原始Fsimage文件不会被修改,同时保证了最新文件系统操作记录被正确应用到镜像中。

Secondary NameNode

        备注:老版本的Hadoop是Secondary NameNode干这个合并的活,协助NameNode执行一些管理任务。S N定期合并NameNode的Fsimage文件和Edits文件,生成新的Fsimage文件,以减少NameNode的启动时间和内存占用。

NameNode HA机制(High Availability)(IM)

        NameNode HA是HDFS的高可用性解决方案,它通过在集群中配置多个NameNode实例来提供故障转移和无缝切换的能力。

        在NN HA配置中,有两个NameNode实例,一个被称为Active NameNode,另一个被称为Standby NameNode。 Active NameNode负责处理客户端的请求,维护文件系统的元数据以及管理数据块的位置信息。Standby NameNode则处于备用状态,与Active NameNode保持同步,并监控其健康状态。

         在生产环境中,为避免NameNode宕机,HDFS无法提供服务,产生单点故障问题,因此HDFS通常会配置了一个备用的NameNode被称为Standby NameNode,用于提供冗余和故障转移。

DataNode(数据节点,worker节点)

DataNode主要功能

        1、DataNode是存储实际数据块的节点,它负责在本地磁盘上存储和管理数据块。

        2、与namenode保持心跳机制,同时上报块信息,执行namenode的操作

        DataNode通过与NameNode的交互,定期向NameNode报告所存储的数据块的列表和状态信息,发送心跳信号和块报告,以确保数据的完整性和可用性。

        3、存储和提供数据块给客户端

timeout  = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval
心跳 超时时间 10分钟 + 30秒

ZKFC(ZooKeeper故障转移控制器)IM

ZCFC主要功能

        ZKFC是HDFS的故障转移组件,它通过监视和控制活动NameNode和备用NameNode之间的状态来实现自动故障转移。

        它在主备NameNode之间进行状态同步,以便在主节点发生故障时,能够快速切换到备用节点。 

        ZKFC与和JournalNode紧密合作,通过与其通信来实现高可用性和容错性。

JournalNode(日志节点)

        JournalNode的功能用于存储和管理NameNode的操作日志,确保元数据更新的持久性。

        它接收来自NameNode的事务日志,并将其写入本地磁盘和共享存储中,以便在需要时进行恢复。分布式系统中,NameNode和其他JournalNode一起工作,构成了分布式的高可用日志系统,用于保证元数据的一致性和可靠性。

组件之间的联系

        NameNode是HDFS的核心,负责管理文件系统的命名空间和元数据。它通过与DataNode进行通信来读取和写入数据块。

        DataNode存储实际的数据块,向NameNode报告数据块的状态和位置信息。

        ZKFC通过与NameNode和JournalNode的交互,实现主备节点之间的状态同步和故障转移。

        JournalNode负责存储和管理NameNode的操作日志,为HDFS提供持久性和可靠性。它与NameNode和其他JournalNode一起工作,构成了分布式的高可用日志系统。

参考文章

https://hadoop.apache.org/ hadoop官网

https://www.cnblogs.com/shun7man/p/11521290.html

Hadoop 三大组件之HDFS_hdfs组件_不忘初欣丶的博客-CSDN博客


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/34126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web 服务器 -【Tomcat】的简单学习

Tomcat1 简介1.1 什么是Web服务器 2 基本使用2.1 下载2.2 安装2.3 卸载2.4 启动2.5 关闭2.6 配置2.7 部署 3 Maven创建Web项目3.1 Web项目结构3.2 创建Maven Web项目 4 IDEA使用Tomcat4.1 集成本地Tomcat4.2 Tomcat Maven插件 Tomcat 1 简介 1.1 什么是Web服务器 Web服务器是…

父进程等待子进程退出 / 僵尸进程孤儿进程

Q:父进程为什么要等待子进程退出? A:回顾创建子进程的目的,就是让子进程去处理一些事情,那么“事情干完了没有”这件事,父进程需要知道并收集子进程的退出状态。子进程的退出状态如果不被收集,…

30、Flink SQL之SQL 客户端(通过kafka和filesystem的例子介绍了配置文件使用-表、视图等)

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

iphone拷贝照片中间带E自动去重软件,以及java程序如何打包成jar和exe

文章目录 一、前提二、问题描述三、原始处理方式四、程序处理4.1 java程序如何打包exe4.1.1 首先打包jar4.1.2 开始生成exe4.1.3 软件使用方式 4.2 更换图标4.2.1 更换swing的打包jar图标4.2.2 更换exe图标 4.3 如何使生成的exe在没有java环境的电脑上运行4.3.1 Inno Setup打包…

el-select 动态添加多个下拉框

实现的效果如下: 主要的代码如下: 这是formdata 的结构 主要的逻辑 在这个 methods

Linux网络协议和管理

Linux网络协议和管理 一.网络设备基本知识 图1-网络设备基本知识 二.TCP/IP协议栈简介 1.概述 网络协议通常工作在不同的层中,每一层分别负责不同的通信功能。一个协议族, 比如T C P / I P,是一组不同层次上的多个协议的组合。T C P / I P通…

UVA-1601 万圣节后的早晨 题解答案代码 算法竞赛入门经典第二版

GitHub - jzplp/aoapc-UVA-Answer: 算法竞赛入门经典 例题和习题答案 刘汝佳 第二版 以三个点的当前位置作为状态,广度优先遍历,找到终点即为最短次数。 注意: 一次可以移动多个点,但是每个点只能移动一步。在同一次中&#xf…

工单管理系统有什么优点?工单系统是如何提高企业服务质量和运营效率的?

工单管理系统是一款基于云平台打造的高效报修工单管理系统,为企业报修管理、维保流程优化和后勤决策分析提供全面支持。通过应用工单管理系统,企业能够轻松提升报修效率,降低人工成本,同时提高后勤管理的质量和效益。系统利用先进…

快速上手React:从概述到组件与事件处理

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 「推荐专栏」: ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄,vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff…

Java进阶(1)——JVM的内存分配 反射Class类的类对象 创建对象的几种方式 类加载(何时进入内存JVM) 注解 反射+注解的案例

目录 引出java内存分配java内存分布概略图堆方法区常量池 创建对象内存分配 反射class文件的底层类加载顺序1.检查2.开辟静态资源空间3.常量池4.其他...5.创建一个唯一的类的对象获取Class对象的几种方式 创建对象几种方式new 看到new : new Book()反射 Class.forName(“包名.类…

逆向破解学习-割绳子

试玩 支付失败,请检查网络设置 Hook成功 Hook代码 import android.app.Application; import android.content.Context;import de.robv.android.xposed.XC_MethodHook; import de.robv.android.xposed.XposedHelpers; import de.robv.android.xposed.callbacks.XC_…

vue2 封装 webSocket 开箱即用

第一步: 下载 webSocket npm install vue-native-websocket --save 第二步: 需要在 main.js 中 引入 import websocket from vue-native-websocket; Vue.use(websocket, , {connectManually: true, // 手动连接format: json, // json格式reconnection:…

SpringMVC的架构有什么优势?——表单和数据校验(四)

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 「推荐专栏」: ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄,vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff…

深度学习(37)—— 图神经网络GNN(2)

深度学习(37)—— 图神经网络GNN(2) 这一期主要是一些简单示例,针对不同的情况,使用的数据都是torch_geometric的内置数据集 文章目录 深度学习(37)—— 图神经网络GNN&#xff08…

list模拟实现【引入反向迭代器】

文章目录 1.适配器1.1传统意义上的适配器1.2语言里的适配器1.3理解 2.list模拟实现【注意看反向迭代器】2.1 list_frame.h2.2riterator.h2.3list.h2.4 vector.h2.5test.cpp 3.反向迭代器的应用1.使用要求2.迭代器的分类 1.适配器 1.1传统意义上的适配器 1.2语言里的适配器 容…

基于python+MobileNetV2算法模型实现一个图像识别分类系统

一、目录 算法模型介绍模型使用训练模型评估项目扩展 二、算法模型介绍 图像识别是计算机视觉领域的重要研究方向,它在人脸识别、物体检测、图像分类等领域有着广泛的应用。随着移动设备的普及和计算资源的限制,设计高效的图像识别算法变得尤为重要。…

fork函数和exec族函数的结合使用 的案例

首先回顾之前所讲,在说明“为什么要创建进程”的时候,提到过以下两个原因: 其中第一个原因很好理解,而第二个原因就包含了上节所讲的exec族函数的知识点,并且不管是之前的博文还是上节的exec,都提到了一点“…

重启服务器引发的Docker异常

公司使用云服务器需要硬盘扩容,服务器重启才生效。 重启以后发现拉取远程镜像的命令登录失败了! 然后发现找不到容器和镜像列表了,但是容器都启动了。 查看docker运行状态都是正常的 systemctl is-active docker systemctl status docker.…

爬虫015_python异常_页面结构介绍_爬虫概念介绍---python工作笔记034

来看python中的异常 可以看到不做异常处理因为没有这个文件所以报错了 来看一下异常的写法

exec族函数

本节学习exec族函数,并大量参考了以下链接: linux进程---exec族函数(execl, execlp, execle, execv, execvp, execvpe)_云英的博客-CSDN博客 exec族函数函数的作用 我们用fork函数创建新进程后,经常会在新进程中调用exec函数去执行另外一个程…