Hadoop阶段性技能抽检题，无直接答案但有提示信息

项目名：Hadoop平台及组件的部署管理

考核内容：

考核以大数据技术为核心内容，重点考查同学们基于Hadoop平台环境下，利用Hadoop技术生态组件，综合软件开发相关技术，解决实际问题的能力，所有学生在现场根据给定的项目任务，在120分钟内完成考核任务，最后以提交的截图和文档作为最终评分依据。

考核环节	考核知识点和技能点	描述
Hadoop平台及组件的部署管理	linux网络服务器安装和基本配置	考察Hadoop平台及组件的部署能力，掌握常用的基本配置和命令，能够部署和管理Hadoop集群。
	Hadoop平台安装部署和基本配置
	Hadoop平台相关组件部署与管理
	Hadoop平台的基本应用

考核配置说明

在开始考核作业前请先仔细查看考核配置说明

Hadoop完全分布式平台的系统规划

系统	主机名	IP	部署节点	用户身份
centos7.0	bigdata1	192.168.100.101	NameNode DataNode NodeManager ResourceManager	Root
centos7.0	bigdata2	192.168.100.102	SecondaryNameNode NodeManager DataNode	Root
centos7.0	bigdata3	192.168.100.103	NodeManager DataNode	Root

环境所需发行包准备说明

所需发行包	来源	发行包位置
jdk-8u241-linux-x64.tar.gz	Oracle	素材文件夹下
hadoop-3.1.3.tar.gz	Apache Hadoop	素材文件夹下

Hadoop完全分布式平台目录规划与使用

备注：若路径不存在，则需新建

主机名	目录地址	权限	功能
bigdata1 bigdata2 bigdata3	/export/software	755	存放上传的发行包目录
	/export/servers/hadoop	755	Hadoop的安装目录
	/export/servers/jdk8	755	Jdk的安装目录

Hadoop的外部端口访问

在浏览器的网址栏中输入下面地址访问：

http://192.168.100.101:9870

以此截图区域为准：

备注：该处列出的为外部访问，服务与服务之间还有其他端口未列出。

评分细则

主要涉及的知识和技能点	分值
A Linux虚拟机的配置	10分
B SSH服务的配置	15分
C JDK的安装	10分
D 完全分布式Hadoop集群部署与配置	30分
E 格式化文件系统	20分
F 词频统计测试	15分
总分值：100分

项目步骤及实现

本任务需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。命令中要求使用绝对路径，具体试题要求如下:

Linux虚拟机的配置（10分）

按照考核要求，首先利用VMware的网络编辑器，按照给定的考核配置说明设置虚拟机网段信息，然后为新创建的Linux虚拟机配置正确的IP地址，同时，采用完整克隆方式复制出另外两台虚拟机，保证所有3台机器的主机名和IP地址都与考核配置说明相符。基础配置完成后完成以下操作：

将3台虚拟机的IP地址查看结果截图分别粘贴至下方单元格内。（6分）

在Hadoop完全分布式的搭建中为防止数据传输和通信受阻以及内网隔离与优化性能的考虑，请你关闭防火墙。

将关闭防火墙的命令与代码截图分别粘贴至下方单元格内。（4分）

SSH服务的配置（15分）

修改3台虚拟机的/etc/hosts，hosts用于在集群内各虚拟机间直接通过主机名进行免密SSH访问，确保稳定可靠的节点间通信。

将bigdata1虚拟机的hosts配置内容截图粘贴至下方单元格内。（3分）

SSH免密登录功能的配置需要在3台机器间相互配置。

将bigdata1虚拟机的密钥生成截图粘贴至下方单元格内。（4分）

将bigdata1虚拟机拷贝公钥到bigdata1、bigdata2、bigdata3的命令截图粘贴至下方单元格内。（6分）

在3台机器间相互拷贝公钥后可以实现相互的通信，假使在bigdata1虚拟机上输入“bigdata2” 指令访问bigdata2主机做测试，若是不再需要输入密码，则说明bigdata1到bigdata2的单向SSH服务配置成功。

将bigdata1到bigdata2的SSH访问成功进入截图粘贴至下方单元格内。（2分）

JDK的安装（10分）

上传jdk-8u241-linux-x64.tar.gz发行包到bigdata1虚拟机，按照考核配置说明的目录地址进行存放（若路径不存在，则需新建），然后解压发行包至考核配置说明的目录地址进行存放。

将解压jdk发行包的命令复制粘贴至下方单元格内。（3分）

tar -zxvf jdk-8u241-linux-x64.tar.gz -C /export/servers/

在解压完成后请修改JDK的环境变量。

将环境变量jdk部分的环境配置命令区域截图粘贴至下方单元格内。（3分）

执行“java -version”验证JDK安装、配置是否成功，若出现Java的版本号，则说明Java安装成功。

将“java -version”命令的执行结果截图粘贴至下方单元格内。（4分）

完全分布式Hadoop集群部署与配置（30分）

上传hadoop-3.1.3.tar.gz发行包到bigdata1虚拟机，按照考核配置说明的目录地址进行存放（若路径不存在，则需新建），然后解压发行包至考核配置说明的目录地址进行存放。

将解压Hadoop发行包的命令复制粘贴至下方单元格内。（2分）

tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/

在解压完成后请修改Hadoop的环境变量。

将环境变量Hadoop部分的环境配置命令区域截图粘贴至下方单元格内。（3分）

执行“hadoop version”验证JDK安装、配置是否成功，若出现Hadoop的版本号，则说明Hadoop安装成功。

将“hadoop version”命令的执行结果截图粘贴至下方单元格内。（2分）

请你进入存放Hadoop核心配置文件的目录，修改和配置整个Hadoop集群环境以及各个子项目的运行参数。

将进入存放Hadoop核心配置文件目录的代码（绝对路径）完整复制粘贴至下方单元格内。（2分）

cd /export/servers/hadoop-3.1.3/etc/hadoop/

每个配置文件都有特定的配置参数，管理员会根据实际集群的需求去编辑这些文件以调整Hadoop系统的性能和行为。请你在进入存放Hadoop核心配置文件的目录后再进行操作。

将编辑配置文件的关键部分代码分别截图粘贴至下方对应单元格内，粘贴错位或截图关键部分不完整不得分。（16分）

hadoop-env.sh （2分）

设置Java开发工具包（Java Development Kit，简称JDK）的安装目录。

core-site.xml （2分）

配置用来指定Hadoop分布式文件系统（HDFS）的默认命名空间（NameNode）地址和端口和用于设置Hadoop临时目录的路径。

hdfs-site.xml （2分）

设置HDFS文件块在Hadoop集群中的复制份数为3。

mapred-site.xml （4分）

设置Hadoop MapReduce框架其运行模式（在此例中是YARN模式），以及MapReduce各部分运行所需的Hadoop MapReduce安装目录位置。

yarn-site.xml （4分）

设置YARN ResourceManager的位置以及NodeManager的一些服务提供和内存检查策略，这对于Hadoop集群中YARN资源管理框架的正常运行至关重要。

workers （2分）

设置Hadoop集群中三个工作节点（worker nodes）。

为了确保集群中的所有节点能够协同工作并遵循相同的规则，必须保证所有节点上的Hadoop配置文件内容一致。所以我们需要将集群主节点的配置文件分发到其他子节点（注意生效环境变量）。

将分发命令和效果截图分别复制粘贴至下方单元格内。（5分）

22 scp -r /export/servers/hadoop-3.1.3 root@bigdata2:/export/servers/

23 scp -r /export/servers/hadoop-3.1.3 root@bigdata3:/export/servers/

格式化文件系统（20分）

为了初始化和准备一个新的HDFS命名空间，以便Hadoop可以开始存储和管理数据。格式化HDFS是在Hadoop集群正式投入使用前必不可少的一步，它确保了文件系统的干净起始状态，以及随后HDFS能够正确无误地存储和检索数据。只有在首次搭建Hadoop集群或决定重置现有集群数据时，才需要进行此操作。对主节点的文件系统进行格式化处理。

执行格式化处理的指令后，若出现“successfully formatted”信息则说明格式化文件系统成功，可以正常启动Hadoop集群了。

将格式化命令和执行效果截图（至少包含但不限于最后20行代码）分别复制粘贴至下方单元格内。（6分）

Hdfs namenode -format

启动Hadoop集群是为了构建一个可伸缩、可靠且高效的平台，请你在格式化成功后启动。

将启动hadoop集群的命令和效果部分截图分别复制粘贴至下方单元格内。（4分）

Start-dfs.sh

Start-yarn.sh

Jps

通过jps查看三台虚拟机上的节点，其目的是为了确认Hadoop相关服务进程是否已经成功启动并在预期的节点上运行。

将jps查看三台虚拟机上节点的效果截图分别复制粘贴至下方单元格内。（6分）

通过Hadoop的外部端口访问 hdfs 的 web 界面端口。

将浏览器的web界面截图至下方单元格内。（4分）

词频统计测试（15分）

词频统计测试常被用来验证Hadoop完全分布式集群是否正常工作，其背后的原理在于，词频统计任务能同时利用到Hadoop集群的两个核心组件——HDFS（Hadoop Distributed File System）和MapReduce，以及它们之间的协同运作能力。通过这样一个完整的端到端测试，可以确认Hadoop集群的所有核心组件均按预期工作，从而证明集群部署和配置的成功。