项目名:Hadoop平台及组件的部署管理 |
考核内容: 考核以大数据技术为核心内容,重点考查同学们基于Hadoop平台环境下,利用Hadoop技术生态组件,综合软件开发相关技术,解决实际问题的能力,所有学生在现场根据给定的项目任务,在120分钟内完成考核任务,最后以提交的截图和文档作为最终评分依据。 |
考核环节 | 考核知识点和技能点 | 描述 |
Hadoop平台及组件的部署管理 | linux网络服务器安装和基本配置 | 考察Hadoop平台及组件的部署能力,掌握常用的基本配置和命令,能够部署和管理Hadoop集群。 |
Hadoop平台安装部署和基本配置 | ||
Hadoop平台相关组件部署与管理 | ||
Hadoop平台的基本应用 |
考核配置说明
在开始考核作业前请先仔细查看考核配置说明
- Hadoop完全分布式平台的系统规划
系统 | 主机名 | IP | 部署节点 | 用户身份 |
centos7.0 | bigdata1 | 192.168.100.101 | NameNode DataNode NodeManager ResourceManager | Root |
centos7.0 | bigdata2 | 192.168.100.102 | SecondaryNameNode NodeManager DataNode | Root |
centos7.0 | bigdata3 | 192.168.100.103 | NodeManager DataNode | Root |
- 环境所需发行包准备说明
所需发行包 | 来源 | 发行包位置 |
jdk-8u241-linux-x64.tar.gz | Oracle | 素材文件夹下 |
hadoop-3.1.3.tar.gz | Apache Hadoop | 素材文件夹下 |
- Hadoop完全分布式平台目录规划与使用
备注:若路径不存在,则需新建
主机名 | 目录地址 | 权限 | 功能 |
bigdata1 bigdata2 bigdata3 | /export/software | 755 | 存放上传的发行包目录 |
/export/servers/hadoop | 755 | Hadoop的安装目录 | |
/export/servers/jdk8 | 755 | Jdk的安装目录 |
- Hadoop的外部端口访问
在浏览器的网址栏中输入下面地址访问: http://192.168.100.101:9870 以此截图区域为准: |
备注:该处列出的为外部访问,服务与服务之间还有其他端口未列出。
- 评分细则
主要涉及的知识和技能点 | 分值 |
A Linux虚拟机的配置 | 10分 |
B SSH服务的配置 | 15分 |
C JDK的安装 | 10分 |
D 完全分布式Hadoop集群部署与配置 | 30分 |
E 格式化文件系统 | 20分 |
F 词频统计测试 | 15分 |
总分值:100分 |
- 项目步骤及实现
本任务需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。命令中要求使用绝对路径,具体试题要求如下:
- Linux虚拟机的配置(10分)
- 按照考核要求,首先利用VMware的网络编辑器,按照给定的考核配置说明设置虚拟机网段信息,然后为新创建的Linux虚拟机配置正确的IP地址,同时,采用完整克隆方式复制出另外两台虚拟机,保证所有3台机器的主机名和IP地址都与考核配置说明相符。基础配置完成后完成以下操作:
将3台虚拟机的IP地址查看结果截图分别粘贴至下方单元格内。(6分)
- 在Hadoop完全分布式的搭建中为防止数据传输和通信受阻以及内网隔离与优化性能的考虑,请你关闭防火墙。
将关闭防火墙的命令与代码截图分别粘贴至下方单元格内。(4分)
- SSH服务的配置(15分)
- 修改3台虚拟机的/etc/hosts,hosts用于在集群内各虚拟机间直接通过主机名进行免密SSH访问,确保稳定可靠的节点间通信。
将bigdata1虚拟机的hosts配置内容截图粘贴至下方单元格内。(3分)
- SSH免密登录功能的配置需要在3台机器间相互配置。
将bigdata1虚拟机的密钥生成截图粘贴至下方单元格内。(4分)
将bigdata1虚拟机拷贝公钥到bigdata1、bigdata2、bigdata3的命令截图粘贴至下方单元格内。(6分)
- 在3台机器间相互拷贝公钥后可以实现相互的通信,假使在bigdata1虚拟机上输入“bigdata2” 指令访问bigdata2主机做测试,若是不再需要输入密码,则说明bigdata1到bigdata2的单向SSH服务配置成功。
将bigdata1到bigdata2的SSH访问成功进入截图粘贴至下方单元格内。(2分)
- JDK的安装(10分)
- 上传jdk-8u241-linux-x64.tar.gz发行包到bigdata1虚拟机,按照考核配置说明的目录地址进行存放(若路径不存在,则需新建),然后解压发行包至考核配置说明的目录地址进行存放。
将解压jdk发行包的命令复制粘贴至下方单元格内。(3分)
tar -zxvf jdk-8u241-linux-x64.tar.gz -C /export/servers/ |
- 在解压完成后请修改JDK的环境变量。
将环境变量jdk部分的环境配置命令区域截图粘贴至下方单元格内。(3分)
- 执行“java -version”验证JDK安装、配置是否成功,若出现Java的版本号,则说明Java安装成功。
将“java -version”命令的执行结果截图粘贴至下方单元格内。(4分)
- 完全分布式Hadoop集群部署与配置(30分)
- 上传hadoop-3.1.3.tar.gz发行包到bigdata1虚拟机,按照考核配置说明的目录地址进行存放(若路径不存在,则需新建),然后解压发行包至考核配置说明的目录地址进行存放。
将解压Hadoop发行包的命令复制粘贴至下方单元格内。(2分)
tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/ |
- 在解压完成后请修改Hadoop的环境变量。
将环境变量Hadoop部分的环境配置命令区域截图粘贴至下方单元格内。(3分)
- 执行“hadoop version”验证JDK安装、配置是否成功,若出现Hadoop的版本号,则说明Hadoop安装成功。
将“hadoop version”命令的执行结果截图粘贴至下方单元格内。(2分)
- 请你进入存放Hadoop核心配置文件的目录,修改和配置整个Hadoop集群环境以及各个子项目的运行参数。
将进入存放Hadoop核心配置文件目录的代码(绝对路径)完整复制粘贴至下方单元格内。(2分)
cd /export/servers/hadoop-3.1.3/etc/hadoop/ |
- 每个配置文件都有特定的配置参数,管理员会根据实际集群的需求去编辑这些文件以调整Hadoop系统的性能和行为。请你在进入存放Hadoop核心配置文件的目录后再进行操作。
将编辑配置文件的关键部分代码分别截图粘贴至下方对应单元格内,粘贴错位或截图关键部分不完整不得分。(16分)
hadoop-env.sh (2分)
设置Java开发工具包(Java Development Kit,简称JDK)的安装目录。
core-site.xml (2分)
配置用来指定Hadoop分布式文件系统(HDFS)的默认命名空间(NameNode)地址和端口和用于设置Hadoop临时目录的路径。
hdfs-site.xml (2分)
设置HDFS文件块在Hadoop集群中的复制份数为3。
mapred-site.xml (4分)
设置Hadoop MapReduce框架其运行模式(在此例中是YARN模式),以及MapReduce各部分运行所需的Hadoop MapReduce安装目录位置。
yarn-site.xml (4分)
设置YARN ResourceManager的位置以及NodeManager的一些服务提供和内存检查策略,这对于Hadoop集群中YARN资源管理框架的正常运行至关重要。
workers (2分)
设置Hadoop集群中三个工作节点(worker nodes)。
- 为了确保集群中的所有节点能够协同工作并遵循相同的规则,必须保证所有节点上的Hadoop配置文件内容一致。所以我们需要将集群主节点的配置文件分发到其他子节点(注意生效环境变量)。
将分发命令和效果截图分别复制粘贴至下方单元格内。(5分)
22 scp -r /export/servers/hadoop-3.1.3 root@bigdata2:/export/servers/ 23 scp -r /export/servers/hadoop-3.1.3 root@bigdata3:/export/servers/ |
- 格式化文件系统(20分)
为了初始化和准备一个新的HDFS命名空间,以便Hadoop可以开始存储和管理数据。格式化HDFS是在Hadoop集群正式投入使用前必不可少的一步,它确保了文件系统的干净起始状态,以及随后HDFS能够正确无误地存储和检索数据。只有在首次搭建Hadoop集群或决定重置现有集群数据时,才需要进行此操作。对主节点的文件系统进行格式化处理。
- 执行格式化处理的指令后,若出现“successfully formatted”信息则说明格式化文件系统成功,可以正常启动Hadoop集群了。
将格式化命令和执行效果截图(至少包含但不限于最后20行代码)分别复制粘贴至下方单元格内。(6分)
Hdfs namenode -format |
- 启动Hadoop集群是为了构建一个可伸缩、可靠且高效的平台,请你在格式化成功后启动。
将启动hadoop集群的命令和效果部分截图分别复制粘贴至下方单元格内。(4分)
Start-dfs.sh Start-yarn.sh Jps |
- 通过jps查看三台虚拟机上的节点,其目的是为了确认Hadoop相关服务进程是否已经成功启动并在预期的节点上运行。
将jps查看三台虚拟机上节点的效果截图分别复制粘贴至下方单元格内。(6分)
- 通过Hadoop的外部端口访问 hdfs 的 web 界面端口。
将浏览器的web界面截图至下方单元格内。(4分)
- 词频统计测试(15分)
词频统计测试常被用来验证Hadoop完全分布式集群是否正常工作,其背后的原理在于,词频统计任务能同时利用到Hadoop集群的两个核心组件——HDFS(Hadoop Distributed File System)和MapReduce,以及它们之间的协同运作能力。通过这样一个完整的端到端测试,可以确认Hadoop集群的所有核心组件均按预期工作,从而证明集群部署和配置的成功。
- 请将本地文件系统中的 /etc/passwd 文件上传至Hadoop分布式文件系统(HDFS)的 /input 目录下。
将拷贝命令与效果截图分别复制粘贴至下方单元格内。(5分)
34 hdfs dfs -mkdir -p /wordcount/input 35 hdfs dfs -put /export/data/passwd.txt /wordcount/input |
- 执行 Hadoop MapReduce 词频统计操作,使用wordcount.jar程序运行命令来执行MapReduce词频统计任务。
将使用wordcount.jar程序运行的命令复制粘贴至下方单元格内。(5分)
hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /wordcount/input /wordcount/output |
- 词频统计完成后,可以从HDFS下载结果或者直接在HDFS上查看结果文件。
将查看命令与查看结果截图分别复制粘贴至下方单元格内。(5分)
Hdfs dfs -cat /wordcount/output/part-r-00000 |