Hadoop阶段性技能抽检题,无直接答案但有提示信息

项目名:Hadoop平台及组件的部署管理

考核内容:

考核以大数据技术为核心内容,重点考查同学们基于Hadoop平台环境下,利用Hadoop技术生态组件,综合软件开发相关技术,解决实际问题的能力,所有学生在现场根据给定的项目任务,在120分钟内完成考核任务,最后以提交的截图和文档作为最终评分依据。

考核环节

考核知识点和技能点

描述

Hadoop平台及组件的部署管理

linux网络服务器安装和基本配置

考察Hadoop平台及组件的部署能力,掌握常用的基本配置和命令,能够部署和管理Hadoop集群。

Hadoop平台安装部署和基本配置

Hadoop平台相关组件部署与管理

Hadoop平台的基本应用

考核配置说明

在开始考核作业前请先仔细查看考核配置说明

  • Hadoop完全分布式平台的系统规划

系统

主机名

IP

部署节点

用户身份

centos7.0

bigdata1

192.168.100.101

NameNode

DataNode

NodeManager

ResourceManager

Root

centos7.0

bigdata2

192.168.100.102

SecondaryNameNode

NodeManager

DataNode

Root

centos7.0

bigdata3

192.168.100.103

NodeManager

DataNode

Root

  • 环境所需发行包准备说明

所需发行包

来源

发行包位置

jdk-8u241-linux-x64.tar.gz

Oracle

素材文件夹下

hadoop-3.1.3.tar.gz

Apache Hadoop

素材文件夹下

  • Hadoop完全分布式平台目录规划与使用

备注:若路径不存在,则需新建

主机名

目录地址

权限

功能

bigdata1

bigdata2

bigdata3

/export/software

755

存放上传的发行包目录

/export/servers/hadoop

755

Hadoop的安装目录

/export/servers/jdk8

755

Jdk的安装目录

  • Hadoop的外部端口访问

在浏览器的网址栏中输入下面地址访问:

http://192.168.100.101:9870

以此截图区域为准:

备注:该处列出的为外部访问,服务与服务之间还有其他端口未列出。

  • 评分细则

主要涉及的知识和技能点

分值

A Linux虚拟机的配置

10分

B SSH服务的配置

15分

C JDK的安装

10分

D 完全分布式Hadoop集群部署与配置

30分

E 格式化文件系统

20分

F 词频统计测试

15分

总分值:100分

  • 项目步骤及实现

本任务需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。命令中要求使用绝对路径,具体试题要求如下:

  1. Linux虚拟机的配置(10分)
  1. 按照考核要求,首先利用VMware的网络编辑器,按照给定的考核配置说明设置虚拟机网段信息,然后为新创建的Linux虚拟机配置正确的IP地址,同时,采用完整克隆方式复制出另外两台虚拟机,保证所有3台机器的主机名和IP地址都与考核配置说明相符。基础配置完成后完成以下操作:

将3台虚拟机的IP地址查看结果截图分别粘贴至下方单元格内。(6分)

  1. 在Hadoop完全分布式的搭建中为防止数据传输和通信受阻以及内网隔离与优化性能的考虑,请你关闭防火墙。

将关闭防火墙的命令与代码截图分别粘贴至下方单元格内。(4分)

  1. SSH服务的配置(15分)
  1. 修改3台虚拟机的/etc/hostshosts用于在集群内各虚拟机间直接通过主机名进行免密SSH访问,确保稳定可靠的节点间通信。

将bigdata1虚拟机的hosts配置内容截图粘贴至下方单元格内。(3分)

  1. SSH免密登录功能的配置需要在3台机器间相互配置。

将bigdata1虚拟机的密钥生成截图粘贴至下方单元格内。(4分)

将bigdata1虚拟机拷贝公钥到bigdata1、bigdata2、bigdata3的命令截图粘贴至下方单元格内。(6分)

  1. 在3台机器间相互拷贝公钥后可以实现相互的通信,假使在bigdata1虚拟机上输入“bigdata2” 指令访问bigdata2主机做测试,若是不再需要输入密码,则说明bigdata1到bigdata2的单向SSH服务配置成功。

将bigdata1到bigdata2的SSH访问成功进入截图粘贴至下方单元格内。(2分)

  1. JDK的安装(10分)
  1. 上传jdk-8u241-linux-x64.tar.gz发行包到bigdata1虚拟机,按照考核配置说明的目录地址进行存放(若路径不存在,则需新建),然后解压发行包至考核配置说明的目录地址进行存放。

将解压jdk发行包的命令复制粘贴至下方单元格内。(3分)

tar -zxvf jdk-8u241-linux-x64.tar.gz -C /export/servers/

  1. 在解压完成后请修改JDK的环境变量。

将环境变量jdk部分的环境配置命令区域截图粘贴至下方单元格内。(3分)

  1. 执行“java -version”验证JDK安装、配置是否成功,若出现Java的版本号,则说明Java安装成功。

将“java -version”命令的执行结果截图粘贴至下方单元格内。(4分)

  1. 完全分布式Hadoop集群部署与配置(30分)
  1. 上传hadoop-3.1.3.tar.gz发行包到bigdata1虚拟机,按照考核配置说明的目录地址进行存放(若路径不存在,则需新建),然后解压发行包至考核配置说明的目录地址进行存放。

将解压Hadoop发行包的命令复制粘贴至下方单元格内。(2分)

tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/

  1. 在解压完成后请修改Hadoop的环境变量。

将环境变量Hadoop部分的环境配置命令区域截图粘贴至下方单元格内。(3分)

  1. 执行“hadoop version”验证JDK安装、配置是否成功,若出现Hadoop的版本号,则说明Hadoop安装成功。

将“hadoop version”命令的执行结果截图粘贴至下方单元格内。(2分)

  1. 请你进入存放Hadoop核心配置文件的目录,修改和配置整个Hadoop集群环境以及各个子项目的运行参数。

将进入存放Hadoop核心配置文件目录的代码(绝对路径)完整复制粘贴至下方单元格内。(2分)

cd /export/servers/hadoop-3.1.3/etc/hadoop/

  1. 每个配置文件都有特定的配置参数,管理员会根据实际集群的需求去编辑这些文件以调整Hadoop系统的性能和行为。请你在进入存放Hadoop核心配置文件的目录后再进行操作。

将编辑配置文件的关键部分代码分别截图粘贴至下方对应单元格内,粘贴错位或截图关键部分不完整不得分。(16分)

hadoop-env.sh (2分)

设置Java开发工具包(Java Development Kit,简称JDK)的安装目录。

core-site.xml (2分)

配置用来指定Hadoop分布式文件系统(HDFS)的默认命名空间(NameNode)地址和端口和用于设置Hadoop临时目录的路径

hdfs-site.xml (2分)

设置HDFS文件块在Hadoop集群中的复制份数3

mapred-site.xml (4分)

设置Hadoop MapReduce框架其运行模式(在此例中是YARN模式),以及MapReduce各部分运行所需的Hadoop MapReduce安装目录位置。

yarn-site.xml (4分)

设置YARN ResourceManager的位置以及NodeManager的一些服务提供和内存检查策略,对于Hadoop集群中YARN资源管理框架的正常运行至关重要。

workers (2分)

设置Hadoop集群中三个工作节点(worker nodes)

  1. 为了确保集群中的所有节点能够协同工作并遵循相同的规则,必须保证所有节点上的Hadoop配置文件内容一致。所以我们需要将集群主节点的配置文件分发到其他子节点(注意生效环境变量)。

将分发命令和效果截图分别复制粘贴至下方单元格内。(5分)

   22  scp -r /export/servers/hadoop-3.1.3 root@bigdata2:/export/servers/

   23  scp -r /export/servers/hadoop-3.1.3 root@bigdata3:/export/servers/

  1. 格式化文件系统(20分)

为了初始化和准备一个新的HDFS命名空间,以便Hadoop可以开始存储和管理数据。格式化HDFS是在Hadoop集群正式投入使用前必不可少的一步,它确保了文件系统的干净起始状态,以及随后HDFS能够正确无误地存储和检索数据。只有在首次搭建Hadoop集群或决定重置现有集群数据时,才需要进行此操作。对主节点的文件系统进行格式化处理。

  1. 执行格式化处理的指令后,若出现“successfully formatted”信息则说明格式化文件系统成功,可以正常启动Hadoop集群了。

将格式化命令和执行效果截图(至少包含但不限于最后20行代码)分别复制粘贴至下方单元格内。(6分)

Hdfs namenode -format

  1. 启动Hadoop集群是为了构建一个可伸缩、可靠且高效的平台,请你在格式化成功后启动。

将启动hadoop集群的命令和效果部分截图分别复制粘贴至下方单元格内。(4分)

Start-dfs.sh

Start-yarn.sh

Jps

  1. 通过jps查看三台虚拟机上的节点,其目的是为了确认Hadoop相关服务进程是否已经成功启动并在预期的节点上运行。

将jps查看三台虚拟机上节点的效果截图分别复制粘贴至下方单元格内。(6分)

  1. 通过Hadoop的外部端口访问 hdfs 的 web 界面端口。

将浏览器的web界面截图至下方单元格内。(4分)

  1. 词频统计测试(15分)

词频统计测试常被用来验证Hadoop完全分布式集群是否正常工作,其背后的原理在于,词频统计任务能同时利用到Hadoop集群的两个核心组件——HDFS(Hadoop Distributed File System)和MapReduce,以及它们之间的协同运作能力。通过这样一个完整的端到端测试,可以确认Hadoop集群的所有核心组件均按预期工作,从而证明集群部署和配置的成功。

  1. 请将本地文件系统中的 /etc/passwd 文件上传至Hadoop分布式文件系统(HDFS)的 /input 目录下。

将拷贝命令与效果截图分别复制粘贴至下方单元格内。(5分)

   34  hdfs dfs -mkdir -p /wordcount/input

   35  hdfs dfs -put /export/data/passwd.txt /wordcount/input

  1. 执行 Hadoop MapReduce 词频统计操作,使用wordcount.jar程序运行命令来执行MapReduce词频统计任务。

将使用wordcount.jar程序运行的命令复制粘贴至下方单元格内。(5分)

hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /wordcount/input /wordcount/output

  1. 词频统计完成后,可以从HDFS下载结果或者直接在HDFS上查看结果文件

将查看命令与查看结果截图分别复制粘贴至下方单元格内。(5分)

Hdfs dfs -cat /wordcount/output/part-r-00000

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/12623.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode hot100-38-Y

226. 翻转二叉树给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。这道题莫名其妙做出来了,看评论好多人都是莫名其妙做出来的。就是连续做了几道题有感觉了。很难解释。 我的做法 后序递归 class Solution {public TreeNode i…

LeetCode:2589.完成所有任务的最少时间(贪心 Java)

目录 完成所有任务的最少时间 题目描述: 实现代码与解析: 贪心 原理思路: 完成所有任务的最少时间 题目描述: 你有一台电脑,它可以 同时 运行无数个任务。给你一个二维整数数组 tasks ,其中 tasks[i] …

Linux 系统下进程异常的处理方式

Linux 系统异常进程处理 一、僵尸进程 说明:僵尸进程对系统来说就是系统已经接管不了并处于异常状态的进程,既不会自动释放,也不能被系统接管,下面列出几种查看并kill僵尸进程的方式 。 方式一、使用如下命令查看目前系统状态为…

【C语言】水仙花数

问题 水仙花数(Narcissistic number)也被称为超完全数字不变数(pluperfect digital invariant, PPDI)、自恋数、自幂数或阿姆斯壮数数(Armstrong number)。 它是指一个n位数(n≥3)…

【C++】---继承

【C】---继承 一、继承的概念及定义1、继承的概念2、定义语法格式3、继承基类成员访问方式的变化 二、基类 和 派生类 的对象之间的赋值转换1、赋值规则2、切片(1)子类对象 赋值 给 父类对象(2)子类对象 赋值 给 父类指针&#xf…

Promise链式调用与错误处理

Promise链式调用是一种处理异步操作的方法,它可以依次执行多个异步任务,并且可以在每个任务完成后进行后续操作。 在Promise链式调用中,每个任务都返回一个Promise对象,可以通过调用.then()方法来指定任务完成后的操作&#xff0…

Python邮件处理库之flanker使用详解

概要 Flanker是一个开源的邮件处理库,专门设计用于解析、验证和构建电子邮件地址和MIME消息。由Mailgun开发,它旨在提高邮件处理的效率和准确性,尤其适用于需要高效邮件验证和解析的应用程序。 安装 安装Flanker非常简单,可以通过Python的包管理器pip进行安装: pip ins…

MYSQL库管理---1.默认系统库 2.创建/删除/查看库

文章目录 @[TOC](文章目录)MYSQL默认的系统库1、information_schema(数据库)2、mysql3、performance_schema (性能库)4、sysMYSQL创建/删除/查看库MYSQL默认的系统库 1、information_schema(数据库) 1、记录了用户、表、视图等元数据信息。这个库是虚拟出来的库,是由MySQL…

信息流中的混排与流控

待完成. 一. 背景 问题特点: 无法事先拿到所有请求, 离线统一求解. 因此叫 online-matching.应用于在线服务, 求解rt不能高于50ms 二. CIKM 22’, 阿里广告动态定坑 见参考[1]. 2.1 问题建模,动态背包 略, 详见论文 2.2 求解, pidbeam search 思考: beam search 有用的…

Python---Pandas万字总结(2)

DataFrame深度学习 使用 pandas 做数据分析,那么DataFrame一定是被使用得最多的类型,它可以用来保存和处理异质的二维数据。这里所谓的“异质”是指DataFrame中每个列的数据类型不需要相同,这也是它区别于 NumPy 二维数组的地方。DataFrame提…

使用 cloudflare 免费服务,搭建临时邮箱,无需暴露自己的真实邮箱地址,保护个人隐私

使用 cloudflare 免费服务,搭建临时邮箱 地址 在线演示 🌐Github地址 https://github.com/find-xposed-magisk/cloudflare_temp_email 功能/TODO Cloudflare D1 作为数据库 使用 Cloudflare Pages 部署前端 使用 Cloudflare Workers 部署后端 email 转…

【源码+文档+调试讲解】微信小程序家政项目小程序

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了微信小程序家政项目小程序的开发全过程。通过分析微信小程序家政项目小程序管理的不足,创建了一个计算机管理微信小程序家政项目小程序的方案。文章介…

每日新闻掌握【2024年5月13日 星期一】

2024年5月13日 星期一 农历四月初六 TOP大新闻 全国23个城市全面取消限购,超50城支持住房“以旧换新” 据统计,截至5月9日,全国共计50余个城市对限购政策松绑,其中西安、成都、杭州、佛山、东莞、厦门、南京、苏州等23个城市全面…

STM32睡眠模式

文章目录 前言PWR介绍电源框图上电复位和掉电复位可编程电压检测器低功耗模式模式选择电源控制寄存器 睡眠模式停止模式待机模式 前言 在单片机产品中,例如遥控这类产品,长时间处于待机状态下,所以对于这类产品在待机时就应该尽可能的减少不…

【环境安装】nodejs 国内源下载与安装以及 npm 国内源配置

前言 Node.js 是一个基于 Chrome V8 引擎构建的 JavaScript 运行时环境,它能够使 JavaScript 在服务器端运行。它拥有强大的包管理器 npm,使开发者能够轻松管理和共享 JavaScript 代码包。 在中国,由于众所周知的原因,我们可能会…

JavaScript基础(七)

isNaN //用来判断一个变量是不是一个非数字 不是来判断是不是number类型&#xff0c;而是判断当前值能不能转为number类型&#xff0c;OK&#xff1f;懂了。 还有同学不明白&#xff0c;来看实例: <script> //isNaN(非数字)→true &#xff08;数字&#xff09;→fal…

Qt qt5.3集成mqtt模块

参考 【Qt官方MQTT库的使用&#xff0c;附一个MqttClient例子】 - 叶小鹏 - 博客园 (cnblogs.com)MQTT&#xff1a;windows最简单搭建mqtt服务端及本地客户端测试_emqx-windows-4.3.6-CSDN博客MQTTX 下载 编译 我从Github下载的是Release v5.12.5 qt/qtmqtt (github.com)版…

单链表题-ysf-反转-中间节点-回文-合并-分割

环形链表的约瑟夫问题_牛客题霸_牛客网 经典的约瑟夫环 #include <stdint.h> #include <stdlib.h> //创建链表 typedef struct ListNode ListNode;ListNode* buyNode(int x){ListNode* newNode(ListNode*)malloc(sizeof(ListNode));if(newNodeNULL){exit(1);}newN…

C++ C# 贝塞尔曲线

二阶贝塞尔曲线公式 三阶贝塞尔曲线公式 C 三维坐标点 二阶到N阶源码 //二阶公式&#xff1a; FVector BezierUtils::CalculateBezierPoint(float t, FVector startPoint, FVector controlPoint, FVector endPoint) {float t1 (1 - t) * (1 - t);float t2 2 * t * (1 - t);…