黑马大数据学习笔记3-MapReduce配置和YARN部署以及基本命令

目录

  • 部署说明
  • MapReduce配置文件
  • YARN配置文件
  • 分发配置文件
  • 集群启动命令
    • 开始启动YARN集群
  • 查看YARN的WEB UI页面
  • 保存快照
  • YARN集群的启停命令
    • 一键启动脚本
    • 单进程启停
  • 提交MapReduce任务到YARN执行
    • 提交wordcount示例程序
    • 查看运行日志
    • 提交求圆周率示例程序

p41~43
https://www.bilibili.com/video/BV1WY4y197g7/?p=41

部署说明

  • Hadoop HDFS分布式文件系统,我们会启动:
    • NameNode进程作为管理节点
    • DataNode进程作为工作节点
    • SecondaryNamenode作为辅助
  • 同理,Hadoop YARN分布式资源调度,会启动:
    • ResourceManager进程作为管理节点
    • NodeManager进程作为工作节点
    • ProxyServer、JobHistoryServer这两个辅助节点
  • 那么,MapReduce呢?
    MapReduce运行在YARN容器内,无需启动独立进程

所以关于MapReduce和YARN的部署,其实就是2件事情:

  • 关于MapReduce: 修改相关配置文件,但是没有进程可以启动
  • 关于YARN: 修改相关配置文件, 并启动ResourceManager、NodeManager进程以及辅助进程(代理服务器、历史服务器)
    在这里插入图片描述
    有3台服务器,其中node1配置较高
    集群规划如下:
主机角色
node1ResourceManager、NodeManager、ProxyServer、JobHistoryServer
node2NodeManager
node3NodeManager

MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内,修改:

  • mapred-env.sh文件
su - hadoop
cd /export/server/hadoop/etc/hadoop/
vim mapred-env.sh

在顶部添加以下内容

export JAVA_HOME=/export/server/jdk
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

设置JDK路径
设置JobHistoryServer进程内存为1G
设置日志级别为INFO

  • mapred-site.xml文件
vim mapred-site.xml

<configuration></configuration>之间添加以下内容

<property><name>mapreduce.framework.name</name><value>yarn</value><discription>MapReduce的运行框架运行为YARN</discription>
</property><property><name>mapreduce.jobhistory.address</name><value>node1:10020</value><discription>历史服务器通讯端口为node1:10020</discription>
</property><property><name>mapreduce.jobhistory.webapp.address</name><value>node1:19888</value><discription>历史服务器端口为node1的19888</discription>
</property><property><name>mapreduce.jobhistory.intermediate-done-dir</name><value>/data/mr-history/tmp</value><discription>历史信息在HDFS的记录临时路径</discription>
</property><property><name>mapreduce.jobhistory.done-dir</name><value>/data/mr-history/done</value><discription>历史信息在HDFS的记录路径</discription>
</property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value><discription>MapRedece HOME设置为HADOOP_HOME</discription>
</property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value><discription>MapRedece HOME设置为HADOOP_HOME</discription>
</property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value><discription>MapRedece HOME设置为HADOOP_HOME</discription>
</property>

YARN配置文件

vim yarn-env.sh

在顶部添加以下内容

export JAVA_HOME=/export/server/jdk
export HADOOP_HOME=/export/server/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

设置JDK路径的环境变量
设置HADOOP_HOME的环境变量
设置配置文件路径的环境变量
设置日志文件路径的环境变量

vim yarn-site.xml

<configuration></configuration>之间添加以下内容

<property><name>yarn.resourcemanager.hostname</name><value>node1</value><discription>ResourceManager设置在node1节点</discription>
</property><property><name>yarn.nodemanager.local-dirs</name><value>/data/nm-local</value><discription>NodeManager中间数据本地存储路径</discription>
</property><property><name>yarn.nodemanager.log-dirs</name><value>/data/nm-log</value><discription>NodeManager数据日志本地存储路径</discription>
</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><discription>为MapReduce程序开启Shuffle服务</discription>
</property><property><name>yarn.log.server.url</name><value>http://node1:19888/jobhistory/logs</value><discription>历史服务器URL</discription>
</property><property><name>yarn.web-proxy.address</name><value>node1:8089</value><discription>代理服务器主机和端口</discription>
</property><property><name>yarn.log-aggregation-enable</name><value>true</value><discription>开启日志聚合</discription>
</property><property><name>yarn.nodemanager.remote-app-log-dir</name><value>/tmp/logs</value><discription>程序日志HDFS的存储路径</discription>
</property><property><name>yarn.resourcemanager.scheduler.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value><discription>选择公平调度器</discription>
</property>

分发配置文件

把配置好的文件分发到其他服务器节点中

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node2:`pwd`/
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node3:`pwd`/

集群启动命令

常用的进程启动命令如下:

  • 一键启动YARN集群: $HADOOP_HOME/sbin/start-yarn.sh
    • 会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager
    • 会基于workers文件配置的主机启动NodeManager
  • 一键停止YARN集群: $HADOOP_HOME/sbin/stop-yarn.sh
  • 在当前机器,单独启动或停止进程
    • $HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver
    • start和stop决定启动和停止
    • 可控制resourcemanager、nodemanager、proxyserver三种进程
  • 历史服务器启动和停止
    • $HADOOP_HOME/bin/mapred --daemon start|stop historyserver

开始启动YARN集群

在node1服务器,以hadoop用户执行

start-dfs.sh
start-yarn.sh
jps
mapred --daemon start historyserver

日志文件在/export/server/hadoop/logs,出问题可以查看日志来排查问题。

在这里插入图片描述

查看YARN的WEB UI页面

打开 http://node1:8088 即可看到YARN集群的监控页面(ResourceManager的WEB UI)
在这里插入图片描述

保存快照

三个服务器都关机退出保存快照

su -
init 0

刚刚部署好YARN集群
在这里插入图片描述

YARN集群的启停命令

一键启动脚本

启动:
$HADOOP_HOME/sbin/start-yarn.sh

从yarn-site.xml中读取配置,确定ResourceManager所在机器,并启动它。
读取workers文件,确定机器,启动全部的NodeManager。
在当前机器启动ProxyServer(代理服务器)。

关闭:
$HADOOP_HOME/sbin/stop-yarn.sh

start-yarn.sh
jps
stop-yarn.sh

单进程启停

除了一键启停外,也可以单独控制进程的启停。

$HADOOP_HOME/bin/yarn,此程序也可以用以单独控制所在机器的进程的启停
用法:yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)

yarn --daemon start resourcemanager
yarn --daemon stop resourcemanager
yarn --daemon start nodemanager
yarn --daemon stop nodemanager
yarn --daemon start proxyserver
yarn --daemon stop proxyserver

$HADOOP_HOME/bin/mapred,此程序也可以用以单独控制所在机器的历史服务器的启停
用法:mapred --daemon (start|stop) historyserver

mapred --daemon stop historyserver
mapred --daemon start historyserver

提交MapReduce任务到YARN执行

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:MapReduce程序、Spark程序、Flink程序

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用。

常用的有2个MapReduce内置程序:

  • wordcount:单词计数程序。
    统计指定文件内各个单词出现的次数
  • pi:求圆周率
    通过蒙特卡罗算法(统计模拟法)求圆周率

这些内置的示例MapReduce程序代码,都在:
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

cd /export/server/hadoop/share/hadoop/mapreduce/
ll
cd

在这里插入图片描述

可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。

语法: hadoop jar 程序文件 java类名 [程序参数] … [程序参数]

提交wordcount示例程序

单词计数示例程序的功能很简单:

  • 给定数据输入的路径(HDFS)、给定结果输出的路径(HDFS)
  • 将输入路径内的数据中的单词进行计数,将结果写到输出路径

我们可以准备一份数据文件,并上传到HDFS中。

hadoop it bigdata hello world
hello bigdata hdfs
it is hadoop hdfs
hdfs mapreduce yarn
hadoop yarn

将上面内容保存到Linux中为words.txt文件,并上传到HDFS

start-dfs.sh
vim words.txt
hadoop fs -mkdir -p /input
hadoop fs -mkdir /output
hadoop fs -ls /
hadoop fs -put words.txt /input/
hadoop fs -ls /input/

在这里插入图片描述

执行如下命令,提交示例MapReduce程序WordCount到YARN中执行

start-yarn.sh
mapred --daemon start historyserver
hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount hdfs://node1:8020/input hdfs://node1:8020/output/wc

注意:
参数wordcount,表示运行jar包中的单词计数程序(Java Class)
参数1是数据输入路径(hdfs://node1:8020/input/wordcount/)
参数2是结果输出路径(hdfs://node1:8020/output/wc), 需要确保输出的文件夹不存在

提交程序后,可以在YARN的WEB UI页面看到运行中的程序(http://node1:8088/cluster/apps)

在这里插入图片描述

执行完成后,可以查看HDFS上的输出结果

hadoop fs -ls /output/wc
hadoop fs -cat /output/wc/*

在这里插入图片描述

  • _SUCCESS文件是标记文件,表示运行成功,本身是空文件
  • part-r-00000,是结果文件,结果存储在以part开头的文件中

执行完成后,可以借助历史服务器查看到程序的历史运行信息

ps:如果没有启动历史服务器和代理服务器,此操作无法完成(页面信息由历史服务器提供,鼠标点击跳转到新网页功能由代理服务器提供)

查看运行日志

点击logs链接,可以查看到详细的运行日志信息。
此功能基于:

  1. 配置文件中配置了日志聚合功能,并设置了历史服务器

  1. 启动了代理服务器和历史服务器
  2. 历史服务器进程会将日志收集整理,形成可以查看的网页内容供我们查看。

所以,如果发现无法查看程序运行历史以及无法查看程序运行日志信息,请检查上述1、2、3是否都正确设置。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

提交求圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 3 1000

参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
参数3,表示设置几个map任务
参数1000,表示模拟求PI的样本数(越大求的PI越准确,但是速度越慢)

(样本1000太小,不够精准)
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/20484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IntelliJ IDEA快捷键大全 + 动图演示!

一、构建/编译 Ctrl F9&#xff1a;构建项目该快捷键&#xff0c;等同于菜单【Build】—>【Build Project】 执行该命令后&#xff0c;IntelliJ IDEA 会编译项目中所有类&#xff0c;并将编译结果输出到out目录中。IntelliJ IDEA 支持增量构建&#xff0c;会在上次构建的基…

ES6之Promise、Class类与模块化(Modules)

目录 PromiseClass类extendssuper Modules 模块系统export default 和对应importexport 和 import Promise Promise 是 ES6 引入的一种用于处理异步操作的对象。 它解决了传统回调函数&#xff08;callback&#xff09;模式中容易出现的回调地狱和代码可读性差的问题。 Promis…

MySQL binLog问题

看到数据库目录下有很多OFF.*文件的时候很诧异&#xff0c;这玩意是啥&#xff0c;binlog不应该都是*bin-log.*​的文件吗&#xff1f;* [roottest ~]# cd /data/mysql_data [roottest mysql_data]# ls ansible hap_attach_yl hap_func_yl hap_msg_yl h…

ThreadPoolExecutor详解(上)

为什么会有线程池&#xff1f; 如果客户端发一个请求&#xff0c;服务端就创建一个线程接收请求&#xff0c;线程资源是有限的&#xff0c;而且创建一个线程和执行结束之后都要调用操作系统资源销毁线程&#xff0c;这样频繁操作肯定非常占用cpu和内存资源&#xff0c;线程池的…

改进粒子群算法优化BP神经网络---回归+分类两种案例

今天采用改进的粒子群算法(LPSO)优化算法优化BP神经网络。本文选用的LPSO算法是之前作者写过的一篇文章&#xff1a;基于改进莱维飞行和混沌映射&#xff08;10种混沌映射随意切换&#xff09;的粒子群优化算法&#xff0c;附matlab代码 文章一次性讲解两种案例&#xff0c;回归…

shiro快速入门

文章目录 权限管理什么是权限管理&#xff1f;什么是身份认证&#xff1f;什么是授权&#xff1f; 什么是shiro&#xff1f;shiro的核心架构shiro中的三个核心组件 shiro中的认证shiro中的授权shiro使用默认Ehcache实现缓存shiro使用redis作为缓存实现 权限管理 什么是权限管理…

truncate和delete的区别

两者都可以删除表中的数据&#xff0c;但是本质上是有区别的&#xff0c;两者使用方法如下&#xff1a; --删除表中所有数据 DELETE FROM table_name; --删除表中部分符合条件的数据 DELETE FROM table_name WHERE 【】;--删除表中所有数据 TRUNACTE TABLE table_name;1、SQL语…

华为OD机考--【磁盘容量排序】

■ 题目描述 【磁盘容量排序】 磁盘的容量单位常用的有M,G,T这三个等级,它们之间的换算关系为1T = 1024G,1G = 1024M,现在给定n块磁盘的容量, 请对它们按从小到大的顺序进行稳定排序,例如给定5块盘的容量,1T,20M,3G,10G6T,3M12G9M排序后的结果为20M,3G,3M12G9…

MySQL 数据库、表的基本操作

目录 数据库 关系数据库SQL 关系数据库常用词汇 常用命令语句 数据库操作 查看数据库 创建数据库 修改数据库编码 删除数据库 数据表操作 查看数据表 创建数据表 表中数据操作 增 删 改 查 数据库 数据库是在数据管理和程序开发过程中&#xff0c;一种非常重要…

Express中间件

1.创建最基本的中间件 const express require(express); const send require(send);const app express()const mw function (req, res, next) {console.log(middleware);// 一定要调用next() 把流转关系交给下一个中间件或路由next() }app.listen(80, () > {console.l…

SpringBoot —程序包org.springframework.boot.test.context不存在

一. 遇到问题 &#xff1a;程序包org.springframework.boot.test.context不存在 发生错误的原因是项目中缺少spring-boot-starter-test依赖导致的&#xff0c;解决方案如下: 在项目根目录的pom.xm文件中的<dependencies>节点下增加以下依赖即可&#xff1a; <depen…

【ARM 常见汇编指令学习 7 - LDR 指令与LDR伪指令及 mov指令】

文章目录 LDR 指令LDR伪指令LDR伪指令与MOV区别 上篇文章&#xff1a;ARM 常见汇编指令学习 6 - bic(位清除), orr(位或), eor(异或) 下篇文章&#xff1a;ARM 常见汇编指令学习 8 - dsb sy 指令及 dsb 参数介绍 LDR指令 与 LDR伪指令 两者虽然名字相同但是作用却不相同&#x…

uniApp 插件 Fvv-UniSerialPort 使用实例

接上一篇 uniApp 对接安卓平板刷卡器, 读取串口数据 , 本文将详细介绍如何使用插件读取到串口数据 原理 通过uniApp 插件读取设备串口数据, 解析后供业务使用; 步骤 创建uniApp 项目;添加插件 安卓串口通信 Fvv-UniSerialPort 安卓串口通信 Fvv-UniSerialPort - DCloud 插件…

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

PoseiSwap 是 Nautilus Chain 上的首个 DEX&#xff0c;作为目前行业内模块化区块链叙事的早期奉行者&#xff0c;PoseiSwap 也得到了较高的市场关注。基于 Nautilus Chain&#xff0c;PoseiSwap 打造了一个全新的 Rollup 应用层&#xff0c;并通过零知识证明来建立全新的订单簿…

刷完这个笔记,15K真的不能再少了....

大家好&#xff0c;最近有不少小伙伴在后台留言&#xff0c;得准备面试了&#xff0c;又不知道从何下手&#xff01;为了帮大家节约时间&#xff0c;特意准备了一份面试相关的资料&#xff0c;内容非常的全面&#xff0c;真的可以好好补一补&#xff0c;希望大家在都能拿到理想…

SQL-每日一题【1174. 即时食物配送 II】

题目 配送表: Delivery 如果顾客期望的配送日期和下单日期相同&#xff0c;则该订单称为 「即时订单」&#xff0c;否则称为「计划订单」。 「首次订单」是顾客最早创建的订单。我们保证一个顾客只会有一个「首次订单」。 写一条 SQL 查询语句获取即时订单在所有用户的首次订…

解决Vue3 使用Element-Plus导航刷新active高亮消失

解决Vue3 使用Element-Plus导航刷新后active高亮消失的问题 启用路由模式会在激活导航时以 index 作为 path 进行路由跳转 使用 default-active 来设置加载时的激活项。 接下来打印一下选中项index和index路径&#xff0c; 刷新也是没有任何问题的&#xff0c;active不会消失…

资产盘点流程及注意事项

公司在引进固定资产管理的同时&#xff0c;也广泛加快了信息化工作的进程。现代计算机技术、条码技术、条码技术等都不能满足传统的固资管理机制&#xff0c;RFID技术、硬件扫描技术、提高固定资产管理流程、固定资产管理和统计等方面的特殊要求。科学规范地管控企业有形资产的…

Java超级玛丽小游戏制作过程讲解 第一天 创建窗口

package com.sxt;import javax.swing.*; import java.awt.event.KeyEvent; import java.awt.event.KeyListener;public class MyFrame extends JFrame implements KeyListener {//设置窗口的大小为800*600public MyFrame() {this.setSize(800, 600);//设置窗口中显示this.setLo…

机器学习的关键词和算法总结

随着全球各行业的数据治理、数字化转型智能化辅助的引入发展&#xff0c;机器学习&#xff08;包括深度学习&#xff09;在逐步深入到各行各业&#xff0c;所以&#xff0c;有必要对机器学习的常见术语&#xff0c;经典算法及应用场景进行一次总结&#xff0c;其实机器学习兴起…