hadoop面试题

一、单项选择题

1、目前,Hadoop的最高版本是哪个(    )

A、Hadoop3.x  B、Hadoop2.x  C、Hadoop4.x  D、Hadoop1.x

2、大数据的4V特征是指? (  B    )

A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)

B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)

C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)

D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)

3、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?(    D  )

A、一个map读取64MB,另外一个map读取11MB

B、128MB    C、64MB   D、75MB

4、HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?(  A    )

A、一个map读取64MB,另外一个map读取11MB

B、64MB   C、75MB   D、128MB

5、关于SecondaryNameNode哪项是正确的? (     )

A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间

B、它对内存没有要求    C、它是NameNode的热备

D、SecondaryNameNode应与NameNode部署到一个节点

6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? (  C   )

A、hadoop fs –put     B、hadoop fs –push /

C、hadoop fs –put /   D、hadoop -push /

7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? (   C   )

A、mapred-site.xml   B、core-site.xml

C、hdfs-site.xml     D、hadoop-env.sh

8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? (  B    )

A、reboot    B、hostname   C、pwd   D、tail

9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? (   A   )

A、3   B、2   C、1   D、4

10、以下哪个不是HDFS的守护进程(  C    )

A、SecondaryNameNode   B、NameNode C、MrappMaster/YarnChild  D、DataNode

11、大数据至少为以下哪种存储量级? (   B   )

A、EB   B、PB   C、TB   D、ZB

12、关于HDFS集群中的DataNode的描述不正确的是? (  A    )

A、一个DataNode上存储的所有数据块可以有相同的

B、存储客户端上传的数据的数据块

C、DataNode之间可以互相通信

D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

13、MapReduce的Shuffle过程以下中哪个操作是最后做的?(   B   )

A、排序   B、合并  C、分区  D、溢写

14、Hadoop起始于以下哪个阶段?(  D    )

A、2004年,Nutch的开发者开发了NDFS。

B、2004年,Google发表了关于MapReduce的论文。

C、2003年,Google发布了GFS论文。  D、2002年,Apach项目的Nutch。

15、下面哪个程序负责HDFS数据存储。(  C    )

A、NameNode    B、Jobtracker   C、Datanode    D、tasktracker

16、配置机架感知的下面哪项正确?(  C    )

A、MapReduce会根据机架获取离自己比较近的网络数据

B、写入数据的时候会写到不同机架的DataNode

C、都正确   D、如果一个机架出问题,不会影响数据读写

17、下列关于HDFS的描述正确的是? (   A   )

A、NameNode磁盘元数据不保存Block的位置信息

B、DataNode通过长连接与NameNode保持通信

C、HDFS集群支持数据的随机读写

D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作

18、一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?( B     )

A、3  B、2  C、4  D、1

19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? (   B   )

A、混合处理系统   B、分布式键值系统  C、批处理系统     D、流处理系统

20、关于大数据的价值密度描述正确的是以下哪个? (  A    )

A、大数据由于其数据量大,所以其价值密度低。

B、大数据由于其数据量大,所以其价值也大。

C、大数据的价值密度是指其数据类型多且复杂。

D、大数据由于其数据量大,所以其价值密度高。

二、多

1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? (   AC      )

A、Spark  B、Sqoop  C、Hive  D、Avro

2、大数据的计算模式主要有哪些? (   ABCD      )

A、图计算模式    B、流计算模式  C、查询分析计算模式  D、批处理计算模式

3、Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这

5个编程组件中。(   AB      )

A、Partitioner和Combiner        B、Split和Sort

C、InputFormat和OutputFormat    D、Mapper和Reducer

4、YARN主要包含的模块有以下哪些?(    ABC     )

A、ApplicationMaster  B、ResourceManager

C、NodeManager        D、QuorumJournalManager

5、下面哪些是Hadoop 2.x的组件? (    ABC     )

A、Spark   B、Hive   C、HBase   D、GFS

6、Hadoop的三种安装模式包括以下哪种? (    BCD     )

A、两分布式模式   B、完全分布式模式

C、伪分布模式     D、单机模式

7、VMware提供了哪几种工作模式?(    ABD     )

A、host-only仅主机模式        B、NAT模式

C、自定义除以上3种其他模式   D、桥接(bridged)模式

8、Hadoop集群具有以下哪个优点? (    ACD     )

A、高容错性   B、高成本性  C、高可靠性   D、高扩展性

9、关于数据副本的存放策略正确的有些? (  ABCD       )

A、第三个副本:与第一个副本相同机架的其他节点上;

B、更多副本:随机节点。

C、第一个副本,放置在上传文件的数据节点;

D、第二个副本,放置在与第一个副本不同的机架的节点上;

10、以下关于SSH免密码配置的描述正确的选项有哪个?(   ABCD      )

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。

C、SSH是建立 在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。

11、大数据采集中面临的主要问题有以下哪些? (   ABCD      )

A、如何避免重复数据    B、数据源多种多样,数据量大、变化快

C、如何保证数据的质量  D、如何保证数据采集的可靠性

12、以下关于文件块的说法正确的是? (     ABCD    )

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配置的。

D、HDFS将文件存储成块序列。

13、MapRecue的优点有哪些?(    ACD     )

A、可扩展性强   B、计算机性能高  C、容错性强  D、开发简单

14、以下关于HDFS体系结构的描述正确的有哪几项?(  ABCD       )

A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。

B、DataNode作为从结点,用来管理存储的数据。

C、HDFS采用主从结构模型。

D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。

15、HDFS中常用命令有下面哪些? (   ABCD      )

A、hadoop fs –rm    B、hadoop fs –ls

C、hadoop fs –mv    D、hadoop fs –put

16、在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?

(    ABCD     )

A、容易造成TaskTracker端内存溢出   B、JobTrack单点故障问题

C、JobTrack任务过重                 D、容易造成资源浪费

17、常用的HDFS API有哪些? (  ABCD       )

A、rename()     B、copyFromLocalFile()  C、mkdirs()  D、delete()

18、以下关于序列化Writable的说法正确的是?(    ABCD     )

A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。

B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。

C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。

D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。

19、大数据关键技术包括哪些? (  ABCD       )

A、大数据存储   B、大数据预处理  C、大数据采集  D、大数据分析挖掘

20大数据中常见的类型有哪些? ( ABCD        )

A、视频    B、图片    C、音频    D、日志

三、判

1、Hadoop实现了一个分布式文件系统,简称HDFS。(√   )

2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。(   )

3、HDFS既适合超大数据集存储,也适合小数据集的存储。( ×  )

4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。(   )

5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。(   )

6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。(   )

7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。(   )

8、HDFS以流的形式访问文件系统中的数据。(   )

9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。(   )

10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。(   )

四、填空题

1、(    datanode            )负责HDFS数据存储。

2、hadoop运行的模式有:单机模式 、(  伪分布模式          ) 、(       伪分布模式       )。

3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、(  hdfs-site.xml       )

 、mapred-site.xml、(   ,yarn-site.xml                 )  。

4、一个HDFS集群包括两大部分,即 (  namenode           )  与(    datanode          )。

5、格式化HDFS系统的命令为:(    hdfs namenode –format                            )。 

6、hadoop创建多级目录(如:/a/b/c)的命令为(  hadoop fs –mkdir –p /a/b/c      )。

7、hadoop显示根目录命令为:(    hadoop fs –lsr                     )。

8、hadoop包含的四大模块分别是: Hadoop common  、( HDFS ) 、(  Mapreduce )、(        yarn            )。

9、(   job          )是客户端需要执行的一个工作单元。

10、map任务将其输出写入到( 本地磁盘              )。

11、reduce的输出通常存储在(     HDFS                 ) 中以实现可靠存储。

12、大数据是由结构化和非结构化数据组成的。(     10%       )的结构化数据,存储在数据库中,(        90%    )的非结构化数据,它们与人类信息密切相关。

13、大数据关键技术两大核心技术是:(  分布式存储或(HDFS) )和(  分布式处理或(MapReduce)     )。

五、简

  1. hdfs的体系结构是什么?

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

2、NameNode与SecondaryNameNode的区别与联系?

1)区别

(1)NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的

数据块信息。

(2)SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。

2)联系:

(1)SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件(fsimage)和编

辑日志(edits)。

(2)在主 namenode 发生故障时(假设没有及时备份数据),可以从 SecondaryNameNode

恢复数据。

3、hdfs文件写入的流程?

1) Client向NameNode发起文件写入的请求。

2) NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

3) Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

4、完全分布模式又有什么注意点?

完全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。

5、MapReduce核心思想是什么?

分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果

MapReduce是框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种

Map阶段:用于对原始数据进行处理

Reduce阶段:对map阶段数据进行汇总

部分任务不一定需要reduce阶段可能只有map阶段,map阶段产生的数据直接写入HDFS中

有map产生相关key的输出都会集中在到Reduce中处理,reduce是最终的处理过程,其结果不会进行二次处理。

Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架。

6、Hadoop分布式集群,默认备份数为多少,每个数据块大小是多少?在哪个配置文件中可以修改备份数与每个数据块大小?

默认备份为3份,每块数据大小128M, 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58907.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初探Flink的序列化

Flink中的序列化应用场景 程序通常使用(至少)两种不同的数据表示形式[2]: 1. 在内存中,数据保存在对象、结构体、列表、数组、哈希表和树等结构中。 2. 将数据写入文件或通过网络发送时,必须将其序列化为字节序列。 从内存中的表示到字节序列…

运维人员常用的Linux命令汇总

运维人员常用的Linux命令汇总 一.文件和目录 cd命令,用于切换当前目录,它的参数是要切换到的目录的路径,可以是绝对路径,也可以是相对路径。 cd /home 进入 / home 目录 cd .. 返回上一级目录 cd ../.. …

【ESP32】ESP-IDF开发 | I2C控制器+I2C主从收发例程

1. 简介 I2C(Inter-Integrated Circuit),是由Philips公司在1980年代初开发的一种半双工的同步串行总线,它利用一根时钟线和一根数据线在连接总线的两个器件之间进行信息的传递,为设备之间数据交换提供了一种简单高效的…

软考:案例题分析1101

22年第一题:架构设计与评估 分析文字,识别需求和质量属性?这里需要记忆质量属性有那些,区分需求和质量属性,能区分出质量属性之间的区别。 我的回答: 差距分析: 根据题目中功能的特点&#xff…

提高交换网络可靠性之端口安全配置

转载请注明出处 此实验为配置交换机端口安全,当非法设备接入接口时自动触发安全措施 1.查看PC1和PC2的MAC地址👇 2.交换机改名为S1,同时启用端口安全 3.配置允许接入设备 4.设置违规处理方式:即违规则关闭端口 5.查看安全端口相关…

nodejs入门教程19:nodejs dns模块

引入方式 在Node.js中,使用dns模块前需要先通过require函数引入它: const dns require(dns);核心方法 1. dns.lookup(hostname[, options], callback) 功能:将域名解析为IP地址。参数: hostname:要查询的主机名。…

UE5 第三人称学习之动画 control rig

这个东西和建模软件里有的是一个东西,然后IK就是你动脚,他帮你算出小腿大腿该怎么动,FK就是你自己动了大腿,摆小腿,然后再摆脚 就是给每一根骨骼搞一个控制器,给他一个容易选中和操作更明显的图形作为控制…

宏处理将多个excel文件的指定sheet页合并到一个excel文件中

背景了解:有个同事问我:现在他要处理一千多个文件,每个excel文件都有3个sheet页签,想把所有的excel文件的第二个sheet页签复制一份放到一个新的excel文件中。如果是手动去操作一个个文件的复制,也没什么不可&#xff0…

Linux系列-进程的概念

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 这篇文章,我们主要分析一下进程。 之前,我们讲过了冯诺依曼体系架构, 我们常见的计算机,像笔记本,或者不常见的计算机…

SQL优化经验大全(表设计优化,索引优化,索引创建规则、索引失效场景,sql语句优化,主从复制,分库分表)面试题

目录 1.表的设计优化 2.索引优化 2.1 索引创建的规则 2.2 索引失效的场景 3.SQL语句优化 4.主从复制、读写分离 5.分库分表 5.1.怎么判断项目是需要分库还是要分表? 5.2 分库分表有哪些拆分方案? 5.2.1 垂直分库 5.2.2 垂直分表 5.2.3 水平分…

【VMware】使用笔记

一、安装 win11支持16.2以上版本,其他版本不兼容 安装参考: 二、设置 1、蓝屏设置 参考:win11打开VMware虚拟机蓝屏解决_win11vmware蓝屏-CSDN博客 2、VMwareTool配置 第一步:移除“open-vm-tools” sudo apt-get autoremo…

css边框修饰

一、设置线条样式 通过 border-style 属性设置,可选择的一些属性如下: dotted:点线 dashed:虚线 solid:实线 double:双实线 效果如下: 二、设置边框线宽度 ① 通过 border-width 整体设置…

OpenGL入门002——顶点着色器和片段着色器

文章目录 一些概念坐标转换阶段顶点着色器片段着色器VBOVAO 实战简介main.cppCMakeLists.txt最终效果 一些概念 坐标转换阶段 概述: 模型空间、世界空间、视图空间和裁剪空间是对象在3D场景中经历的不同坐标变换阶段。每个空间对应渲染管道的一个步骤,…

LeetCode 684.冗余连接:拓扑排序+哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n)))

【LetMeFly】684.冗余连接:拓扑排序哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n))) 力扣题目链接:https://leetcode.cn/problems/redundant-connection/ 树可以看成是一个连通且 无环 的 无向 图。 给定往…

C语言指针与一维数组 Java动态初始化与常见问题(越界问题)

1./*int main(void) { int a[5] { 10,20,30,40,50 };//数组间的元素地址相连的 int* p; printf("a代表的地址:%d\n", a);//数组首个元素的地址 printf("a1代表的地址:%d\n", a 1);//偏移数组 printf("a2…

2023年SEO趋势分析与未来发展展望

内容概要 在2023年的数字营销环境中,搜索引擎优化(SEO)依然扮演着关键角色。随着技术的不断演进和用户需求的变化,SEO趋势也在不断变化。首先,核心算法的更新已开始影响网站排名,搜索引擎越来越注重网站内…

面试经典 150 题:189、383

189. 轮转数组 【参考代码】 class Solution { public:void rotate(vector<int>& nums, int k) {int size nums.size();if(1 size){return;}vector<int> temp(size);//k k % size;for(int i0; i<size; i){temp[(i k) % size] nums[i];}nums temp; }…

Linux云计算 |【第五阶段】CLOUD-DAY8

主要内容&#xff1a; 掌握DaemonSet控制器、污点策略&#xff08;NoSchedule、Noexecute&#xff09;、Job / CronJob资源对象、掌握Service服务、服务名解析CluterIP&#xff08;服务名自动发现&#xff09;、&#xff08;Nodeport、Headless&#xff09;、Ingress控制器 一…

智能网联汽车:人工智能与汽车行业的深度融合

内容概要 在这个快速发展的时代&#xff0c;智能网联汽车已经不再是科幻电影的专利&#xff0c;它正在悄然走进我们的日常生活。如今&#xff0c;人工智能&#xff08;AI&#xff09;技术与汽车行业的结合犹如一场科技盛宴&#xff0c;让我们看到了未来出行的新方向。通过自动…

Iceoryx2:高性能进程间通信框架(中间件)

文章目录 0. 引言1. 主要改进2. Iceoryx2 的架构3. C示例代码3.1 发布者示例&#xff08;publisher.cpp&#xff09;3.2 订阅者示例&#xff08;subscriber.cpp&#xff09; 4. 机制比较5. 架构比较6. Iceoryx vs Iceoryx2参考资料 0. 引言 Iceoryx2 是一个基于 Rust 实现的开…