hdfs 多租户_【技术干货】常见的HDFS面试问答精选

f50ac3d16866f521bbb8df2cbf3cd820.png

最常见的HDFS面试问答

1. 什么是HDFS?

答:HDFS代表Hadoop分布式文件系统,该系统将大型数据集存储在Hadoop中。它可以在商用硬件上运行,并且具有很高的容错能力。HDFS遵循主/从体系结构,其中许多计算机在集群上运行。群集由一个NameNode和群集中的多个从属节点(称为DataNodes)组成。

359060d2108dda0412e975c8df29f924.png

NameNode存储元数据,即数据块的数量、副本、位置和其他详细信息。另一方面,数据节点存储实际数据,并根据客户端的请求执行读/写请求。

2. HDFS有哪些不同的组件?

答:HDFS具有三个组成部分:

  • 名称节点
  • 数据节点
  • 次要名称节点

3. HDFS DataNode中DataBlock的默认块大小是多少?

答:在Hadoop 1.x中,DataBlock的默认块大小为64MB,在Hadoop 2.x中,其默认块大小为128MB。

4. 解释Hadoop中NameNode的服务。

答:NameNode在HDFS中扮演主节点的角色。它包含两个重要信息:

  • 关于Hadoop元数据和文件系统树
  • 数据块和数据节点之间的内存中映射

NameNode包含元数据信息,例如文件许可权、文件复制因子、块大小、文件创建时间、文件的所有者信息以及文件的块与数据节点之间的映射。

5. HDFS中的fsimage和editlogs是什么?

答:Hadoop文件的元数据存储在HDFS NameNode内存中的文件中,该文件称为fsimage。

当对Hadoop文件系统进行任何更改(例如添加或删除文件等)时,不会立即将其写入fsimage,而是将其保存在磁盘上称为editlog的单独文件中。当名称节点启动时,editlog将与旧的fsimage文件同步,并更新新的副本。

6. 在Unix和Linux中,默认块大小为4KB,那么为什么HDFS块大小设置为64MB或128MB?

答:块是存储在文件系统中的数据的最小单元。因此,如果我们考虑将Linux / Unix的默认块大小用于Hadoop中的数据存储,那么对于海量数据(PB),它将占用大量块。因此,元数据量将显着增加,从而导致NameNode的性能问题。因此,在Hadoop 1.x中,默认块大小为64MB,在Hadoop 2.x中,默认块大小为128MB。

7. NameNode启动时会发生什么?

答:当NameNode启动时,它将执行以下操作:

  • 从最后保存的FsImage和editlog文件中,它将文件系统名称空间加载到其主内存中。
  • 通过合并先前的fsimage和editslog文件来创建新的fsimage文件,以创建新的文件系统名称空间。
  • 从所有DataNode接收有关块位置的信息。

8. Hadoop中的安全模式是什么?

答:安全模式指示NameNode的维护状态。在安全模式下,HDFS群集变为只读。因此,文件系统中不允许修改。同样,你不能在此模式下删除或复制任何数据块。

9. 如果更改HDFS中的块大小,现有数据会发生什么?

答:如果我们更改HDFS中的块大小,不会影响现有数据。

10. 什么是HDFS复制?默认复制因子是什么?

答:HDFS旨在容错以防止数据丢失。因此,HDFS在不同的机架和不同的数据节点中维护每个DataBlock的三个副本,这被称为复制。

默认复制因子为3。

11. 什么是次要NameNode?

答:Hadoop元数据存储在NameNode主内存和磁盘中。主要有两个文件用于此目的:

  • 编辑日志
  • 图像

对HDFS所做的任何更新都将输入到编辑日志中。随着条目数量的增加,文件大小会自动增长,但是,fsimage文件的文件大小保持不变。当服务器重新启动时,editlogs文件的内容将被写入fsimage文件,然后将其加载到主内存中,这非常耗时。editlogs文件大小越多,加载到fsimage中所花费的时间就越多,从而导致停机时间延长。

为避免此类长时间停机,使用了称为次要NameNode的NameNode帮助程序节点,该节点定期将内容从Editlog复制到fsimage,并将新的fsimage文件复制回NameNode。

12. NameNode如何处理DataNode故障?

答:HDFS体系结构的设计方式是,每个DataNode都会定期向HeartNode发送心跳以确保其处于工作模式。当NameNode没有收到来自特定DataNode的任何心跳信号时,它将认为该DataNode已失效或不起作用,并将所有相应的DataBlock转移到已经与其复制的其他活动DataNode。

HDFS面试高级问题

13. 如何在HDFS中执行数据/文件读取操作?

答:HDFS NameNode是所有文件信息及其在从属节点中实际位置的占位符。文件的读取操作遵循以下步骤:

  • 当需要读取文件时,DistributedFileSystem实例从NameNode检索文件信息。
  • NameNode检查该特定文件是否存在,并且用户有权访问该文件。
  • 一旦满足上述条件,NameNode便将令牌提供给客户端,以进行身份验证以从DataNode获取文件。
  • NameNode提供文件的所有Block细节和相关数据节点的列表。
  • 然后根据它们与客户端的接近程度对DataNode进行排序。
  • DistributedFileSystem将输入流返回到名为FSDataInputStream的客户端,以便客户端可以从中读取数据。
  • FSDataInputStream充当DFSInputStream的包装,DFSInputStream负责管理NameNode和DataNode和I / O。
  • 当客户端在流上调用read()时,DFSInputStream连接到壁橱DataNode块,数据通过流返回给客户端。重复调用read()操作,直到完全读取第一个块的末尾为止。
  • 完全读取第一个块后,将关闭与该DataNode的连接。
  • 接下来,DFSInputStream再次连接到下一个块的下一个可能的DataNode,并继续直到完全读取该文件。
  • 读取整个文件后,FSDataInputStream调用close()操作以关闭连接。

14. 是否可以同时写入HDFS文件?

答:否,HDFS不允许并发写入。因为当一个客户端收到NameNode的允许在数据节点块上进行写入的权限时,该特定块将被锁定,直到写入操作完成。因此,没有其他客户端可以在同一块上写入。

15. 现有的HDFS体系结构面临哪些挑战?

答:现有的HDFS体系结构仅由一个NameNode(包含单个Namespace)和多个保存实际数据的DataNode组成。此体系结构在群集大小有限的情况下效果很好。但是,如果我们尝试增加集群大小,则会遇到一些挑战。

  • 由于命名空间和块紧密耦合,因此其他服务无法轻松有效地利用块的存储容量。
  • 对于单个NameNode,如果我们想在集群中添加更多DataNode,它将创建巨大的元数据。在这里,我们可以水平缩放DataNodes。但是,我们不能以相同的方式扩展NameNode。这是一个命名空间可伸缩性问题。
  • 当前的HDFS文件系统具有与吞吐量相关的性能限制。因为单个名称节点仅支持60000个并发任务。
  • 我们无法获得单个应用程序的隔离名称空间,因为HDFS部署发生在多租户环境中,并且多个应用程序或组织共享一个群集。

16. 什么是HDFS联盟?

答:在现有的HDFS体系结构中,无法水平扩展NameNode。Hadoop Federation是一个过程,通过该过程可以水平扩展几个独立的NameNode,而无需任何相互协调。

bb353b1f2d9e8499975253065c3eda49.png

在HDFS联合体系结构中,DataNode位于底层,并用作公用存储。每个DataNode都向集群中的所有NameNode进行注册。在这里,许多名称节点管理许多名称空间,而每个名称空间都有其自己的块池。块池是一组块,并且属于单个命名空间。

总结

以上就是今天的内容了,如果对你有所帮助,希望你能够关注、点赞、转发一键三连支持一下。

需要完整学习线路和配套课堂笔记,请回复111。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498918.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 根据类名 查找module_关于 Python 命令中的 m 参数

在命令行中使用 Python 时,它可以接收大约 20 个选项(option),语法格式如下:python [-bBdEhiIOqsSuvVWx?] [-c command | -m module-name | script | - ] [args]本文想要聊聊比较特殊的“-m”选项:关于它的典型用法、原理解析与发…

matlab安装程序无法启动jvm_JVM 执行 Java 程序时的内存区域划分

在学习 Java 虚拟机(后面简称: JVM )中的垃圾回收机制(GC)之前,先需要了解 在 JVM 中的 Java 程序(class 文件)加载到内存之后到底是怎么存的。在阅读了 JVM规范 和周志明的 《深入理解Java虚拟机(第2版)》 之后,总结一下JVM中的内存划分以及…

map循环遍历取值_Collection集合框架集和map

Collection集合框架集Java培训之Collection集合框架集MapMap概述Map与Collection并列存在。用于保存具有映射关系的数据:Key-ValueMap 中的 key 和 value 都可以是任何引用类型的数据Map 中的 key 不允许重复key 和 value 之间存在单向一对一关系,即通过指定的 key …

rserve php,使用Rserve远程执行R脚本

Rserve介绍Rserve是一个基于TCP/IP协议的,允许R语言与其他语言通信的C/S结构的程序,支持C/C,Java,PHP,Python,Ruby,Nodejs等。 Rserve提供远程连接,认证,文件传输等功能。我们可以设计R做为后台服务,处理统计建模&…

搜索引擎提交软件_搜索引擎优化的发展史及SEO前景展望

SEO 是随着搜索引擎的普及而出现,并伴随搜索引擎的发展而发展的。关于搜索引擎和搜索引擎优化SEO 最初是怎么诞生的有很多种说法。有一个非常有趣的事实是,最早的一批SEO 甚至可以追溯到Yahoo 出现之前,我们可以把Yahoo 的传世人David Filo 和…

mongodb模糊查询_MongoDB的CRUD基本操作

原创:牛津小马哥Python后端工程师小李哥。在上周的推文中,我们介绍了MongoDB的数据库和集合的操作,现在,让我们来继续学习mongodb的另一个操作:CRUDCRUD操作:创建、读取、更新、删除文档。创建操作&#xf…

设计一个程序实现两个任意长的整数的求和运算_自然数集,整数集,有理数集等都有字母表示,为什么无理数集没有...

在网上翻到一个非常有意思的问题:这个问题乍看起来无厘头,但实际上是个非常深刻的问题,涉及到抽象代数(abstract algebra)的一些基本概念,因此我打算写篇文章来详细阐述一下。人类的数学从数数开始,最早诞生的概念是自…

php strpo函数,php strpos函数有什么用

php strpos函数有什么用?定义和用法strpos() f函数查找字符串在另一字符串中第一次出现的位置(区分大小写)。注释:strpos() 函数是区分大小写的。注释:该函数是二进制安全的。相关函数:strrpos() - 查找字符串在另一字符串中最后一…

oracle 客户端_【数据库 常见术语1】 客户端,服务端

这个系列会介绍并回顾在学习和工作中常碰到的一些名词,以及它们的意思。客户端,服务端(以Oracle数据库为例)**************************************************************************************【我的理解】 打个比喻&…

多个线程访问统一对象的不同方法_分析| 你未必真的了解线程安全,别骗自己,来看下怎么实现线程安全...

世界那么大,谢谢你来看我!!关注我你就是个网络、电脑、手机小达人什么是进程?电脑中时会有很多单独运行的程序,每个程序有一个独立的进程,而进程之间是相互独立存在的。比如下图中的QQ、酷狗播放器、电脑管…

php设置mysql查询编码,php连接mysql时怎么设置编码方式

php连接mysql时怎么设置编码方式php连接mysql数据库时,也就是在mysql_connect()语句之后添加“mysql_query("set names utf8");”语句来设置编码方式。注意:是utf8,不是utf-8;网页字符集也最好选用utf-8。在PHP连接数据…

pandas to_csv参数详解_【Python基础】Pandas数据可视化原来也这么厉害

一、可视化概述在Python中,常见的数据可视化库有3个:matplotlib:最常用的库,可以算作可视化的必备技能库,比较底层,api多,学起来不太容易。seaborn:是建构于matplotlib基础上,能满足…

oracle数据库重建em,oracle 11g em重建报唯一约束错误解决方法

oracle 11g em重建报唯一约束错误解决方法更新时间:2012年11月27日 15:07:33 作者:今天在手工配置Oracle11g的EM时总是报如下错误,也没有找到解决办法,以下是我的解决过程,希望可以帮助你们今天在手工配置Oracle11g的EM时总是报如下错误&am…

爬虫 404 try_Python爬虫MOOC笔记

写在前面的小于碎碎念最近在学习Python爬虫内容,其实很多知识在网上搜索一下都能查到,但是作为自己的一种学习记录,也是回顾与复习呀。这种东西真的变化超级快,以前可以直接爬取的内容,现在很多网站都增加了反爬机制&a…

python调用c++_python高性能编程之Cython篇 第一章

第一节 cython的潜能•Cython是一种编程语言,它将Python与C和C 的静态类型系统相结合。•Cython是一个将Cython源代码转换为高效的C或C 源代码的编译器。然后可以将此源代码编译为Python扩展模块或独立可执行文件。Cython的强大功能来自它结合了Python和C的方式&…

oracle获取序列并赋值,Oracle中序列的使用

数据库设计的三大范式第一条就是独立的表结构中必须有唯一主键来标识表中数据.在以往微软的SQL Server(duo版本)平台上.手动编码实现表中主键.并设定为自增列是极其简单.编码如下:typeidintnotnullprimarykeyidentity(1,1),在Oracle 10G中关于序列(Sequence)的使用.(A)Sequence…

oracle序时账是什么,序时账和明细账区别是什么

序时账和明细账区别:一、定义不同:1、明细账也称明细分类账,是根据总账科目所属的明细科目设置的,,用于分类登记某一类经济业务事项,提供有关明细核算资料。2、而序时账了,也称日记账,是指按照经济业务发生…

ui li 菜单 点击添加下级_【Qt开发】实现系统托盘,托盘菜单,托盘消息

概述系统托盘就是在系统桌面底部特定的区域显示运行的程序。windows在任务栏状态区域,linux在布告栏区域。应用程序系统托盘功能,是比较普遍的功能,本篇将详细的介绍如何实现该功能。演示Demo实现功能:1.应用启动后,任…

5g通用模组是什么_中国移动联合芯讯通发布5G终端、芯片及测试产业报告

11月19日,2020中国移动全球合作伙伴大会以“5G融入百业 数智引领未来”为主题在广州召开,从多个维度展现了中国移动运用5G技术驱动各行业转型升级的强大实力。并于21日在展会现场发布了《5G终端、芯片及测试产业报告》。5G终端、芯片及测试产业报告发布现…

dell网卡linux驱动,DELL R710 服务器 Linux 系统网卡驱动安装

DELL R710在装完AS4U7版本的Linux后发现,网卡没有识别出来。怀疑是网卡驱动没有装上,打电话给DELL的工程师,得到的答复是装系统前必须用随机带的引导盘来安装才能将网卡驱动装上。现在系统已经装完了,总不能重装一遍吧&#xff0c…