MapReduce配置和Yarn的集群部署

一、集群环境,还是如下三台服务器

  • 192.168.32.101 node1
  • 192.168.32.102 node2
  • 192.168.32.103 node3

二、YARN架构

  1. YARN,主从架构,有2个角色
  • 主(Master)角色:ResourceManager
  • 从(Slave) 角色:NodeManager
  1. 两个角色各自的功能是什么?
  • ResourceManager: 管理、统筹并分配整个集群的资源
  • NodeManager:管理、分配单个服务器的资源,即创建管理容器,由容器提供资源供程序使用
  1. 什么是YARN的容器?
  • 容器(Container)是YARN的NodeManager在所属服务器上分配资源的手段
  • 创建一个资源容器,即由NodeManager占用这部分资源
  • 然后应用程序运行在NodeManager创建的这个容器内
  • 应用程序无法突破容器的资源限制
  1. YARN辅助角色
  • 代理服务器(ProxyServer):Web Application Proxy Web应用程序代理
  • 历史服务器(JobHistoryServer): 应用程序历史信息记录服务

三、MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内,修改一下文件:

  1. mapred-env.sh文件,添加如下环境变量
# 设置JDK路径
export JAVA_HOME=/export/jdk
# 设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
# 设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA
  1. mapred-site.xml文件,添加如下配置信息
<!-- 针对MR任务,它会将mapreduce作业提交给resourcemanage --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!--job运行日志信息访问地址 --><property><name>mapreduce.jobhistory.address</name><value>node1:10020</value></property><!-- jobhistory web访问地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>node1:19888</value></property><!-- 历史信息在HDFS记录的目录 --><property><name>mapreduce.jobhistory.done-dir</name><value>/data/mr-history/done</value></property><!-- 历史信息在HDFS记录的临时目录 --><property><name>mapreduce.jobhistory.intermediate-done-dir</name><value>/data/mr-history/tmp</value></property><!-- MapReduce Home设置为 HADOOP_HOME --><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property>

四、YARN配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内,修改

  1. yarn-env.sh文件,添加如下4行环境变量内容
export JAVA_HOME=/export/jdk
export HADOOP_HOME=/export/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs
  1. yarn-site.xml文件,配置如图属性
<property><name>yarn.log.server.url</name><value>http://node1:19888/jobhistory/logs</value><description></description>
</property><property><name>yarn.web-proxy.address</name><value>node1:8089</value><description>proxy server hostname and port</description></property><property><name>yarn.log-aggregation-enable</name><value>true</value><description>Configuration to enable or disable log aggregation</description></property><property><name>yarn.nodemanager.remote-app-log-dir</name><value>/tmp/logs</value><description>Configuration to enable or disable log aggregation</description></property>
<!-- Site specific YARN configuration properties --><property><name>yarn.resourcemanager.hostname</name><value>node1</value><description></description></property><property><name>yarn.resourcemanager.scheduler.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value><description></description></property><property><name>yarn.nodemanager.local-dirs</name><value>/data/nm-local</value><description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description></property><property><name>yarn.nodemanager.log-dirs</name><value>/data/nm-log</value><description>Comma-separated list of paths on the local filesystem where logs are written.</description></property><property><name>yarn.nodemanager.log.retain-seconds</name><value>10800</value><description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>Shuffle service that needs to be set for Map Reduce applications.</description></property>

五、分发配置文件到node2和node3

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node2:`pwd`/
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node3:`pwd`/

六、Yarn集群启动命令(均用hadoop用户执行)

# 一键启动
$HADOOP_HOME/sbin/start-yarn.sh
# 一键停止
$HADOOP_HOME/sbin/stop-yarn.sh
# 单独启动或停止
$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver
# 历史服务器启动或停止
$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

启动成功图示

七、查看YARN的WEB UI页面

打开 http://node1:8088 即可看到YARN集群的监控页面(ResourceManager的WEB UI)
部署成功图示

八、提交MapReduce程序至YARN运行

  • 这些内置的示例MapReduce程序代码,都在:
    $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar
  • 可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。
    语法: hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]
  • 执行如下命令,提交示例MapReduce程序WordCount到YARN中执行
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1

注意:

  • 参数wordcount,表示运行jar包中的单词计数程序(Java Class)
  • 参数1是数据输入路径(hdfs://node1:8020/input/wordcount/)
  • 参数2是结果输出路径(hdfs://node1:8020/output/wc1), 需要确保输出的文件夹不存在

九、在YARN WEB页面查看提交程序

  • 访问地址:http://node1:8088/cluster/apps
    查看运行程序
    至此,关于MapReduce配置和Yarn的集群部署以及MapReduce程序运行示例结束!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Redis教程0x04】详解Redis的4个高级数据类型

引言 在【Redis教程0x03】中&#xff0c;我们介绍了Redis中常用的5种基础数据类型&#xff0c;我们再来回顾一下它们的使用场景&#xff1a; String&#xff1a;存储对象、url、计数、分布式锁&#xff1b;List&#xff1a;消息队列&#xff1b;Hash&#xff1a;存储对象、购…

ChatGPT论文指南|ChatGPT论文写作过程中6个润色与查重口诀!【建议收藏】

点击下方▼▼▼▼链接直达AIPaperPass &#xff01; AIPaperPass - AI论文写作指导平台 公众号原文▼▼▼▼&#xff1a; ChatGPT论文指南|ChatGPT论文写作过程中6个润色与查重口诀&#xff01;【建议收藏】 目录 1.润色与查重口诀 2.AIPaperPass智能论文写作平台 论文完成…

商机在线互动营销— —Pushmall智能AI数字名片

商机在线互动营销— —Pushmall智能AI数字名片 开发计划 2024年2月开发计划&#xff1a; 1、优化名片注册、信息完善业务流程&#xff1b; 2、重构供应信息、需求信息发布。 3、会员名片地理位置服务优化‘ 4、企业名片&#xff1a;员工管理优化 5、CRM客户资源管理设计。 已…

基础小白十天学会linux------linux的指令

1.图形界面使用shell命令 2.字符界面使用shell命令 3.shell命令一般格式&#xff1a;命令名选项参数&#xff0c;命令名一般是英文全称的缩写&#xff0c;选项前导符以-、--开头&#xff0c;还可以没有前导符 字符界面截屏要求&#xff1a; 1) 启动计算机&#xff0c;以超级用…

新手摄影笔记-基础知识-按键和参数说明【1】

1. 相机正反面 2.顶部 3.屏幕 4.光圈、快门、感光度 什么是景深呢&#xff1f;景深就是照片中清晰和模糊的范围&#xff0c;也就是前后的距离。景深越深&#xff0c;意味着照片中清晰的范围越大&#xff0c;前后的距离越长&#xff0c;背景越清晰。景深越浅&#xff0c;意味着照…

加密算法概述:分类与常见算法

码到三十五 &#xff1a; 个人主页 心中有诗画&#xff0c;指尖舞代码&#xff0c;目光览世界&#xff0c;步履越千山&#xff0c;人间尽值得 ! 在信息安全领域&#xff0c;加密技术是保护数据不被未授权访问的关键手段。Java作为一种广泛使用的编程语言&#xff0c;提供了丰…

【自然语言处理七-经典论文-attention is all you need】

然语言处理七-经典论文-attention is all you need 摘要原文译文小结 1&#xff1a;引言原文译文小结 2&#xff1a;背景原文译文小结 3&#xff1a;模型架构原文译文小结 3.1 编码器和解码器原文译文小结 3.2 注意力原文译文小结3.2.1 缩放点积注意力原文总结 3.2.2 多头注意力…

Git命令及GUI基本操作

不习惯使用Git命令的可移步下面Git GUI基本操作 Git 常用命令 git branch 查看本地所有分支 git status 查看当前状态 git commit 提交 git branch -a 查看所有的分支 git branch -r 查看本地所有分支 git commit -am "init" 提交并且加注释 git remote add orig…

美国socks5动态IP代理如何提升网络效率?

在探讨美国socks5代理动态IP的奥秘之前&#xff0c;我们需要先深入理解其背后的基本概念和原理。Socks5代理是一种先进的网络协议&#xff0c;它像一位中转站&#xff0c;默默地帮用户转发网络请求。它让网络流量得以通过代理服务器传输&#xff0c;进而隐藏用户的真实IP地址。…

仿牛客网开发笔记

01.用到的 一些 核心技术 1 Spring Framework Spring Core IOC 、AOP > 管理对象的一种思想 IOC > 面向对象的管理思想 AOP > 面向切面的管理思想Spring Data Access 》访问数据库的功能 Transaction、Spring MyBatis Transaction 》管理事务Spring MyBat…

人、机中的幻觉和直觉

对于人类而言&#xff0c;幻觉和直觉是两种不同的心理现象。幻觉是一种错误的感知或体验&#xff0c;而直觉是一种在没有明显依据的情况下产生的直观认知。这两种概念在心理学和认知科学中具有不同的意义和研究对象。 人类幻觉是指个体在感知或体验上出现的错误&#xff0c;即看…

大型语言模型(LLM):当今最大品牌背后的沉默劳动力

揭秘LLM&#xff1a;语言模型新革命&#xff0c;智能交互的未来趋势 在快节奏的数字时代&#xff0c;大型语言模型&#xff08;LLM&#xff09;已悄然成为许多领先品牌的支柱。 在这篇文章中&#xff0c;我们将深入探讨大型语言模型&#xff08;LLM&#xff09;如何彻底改变行业…

yolov8数据集制作——labelimg

一、为什么我们选择用labelimg标注yolov8数据集 它可以标注三种格式的数据 1 VOC标签格式&#xff0c;保存为xml文件。2 yolo标签格式&#xff0c;保存为txt文件。3 createML标签格式&#xff0c;保存为json格式。二、我们为什么不用labelimg标注yolo数据集 因为它只能标注…

面试算法-107-二叉搜索树迭代器

题目 实现一个二叉搜索树迭代器类BSTIterator &#xff0c;表示一个按中序遍历二叉搜索树&#xff08;BST&#xff09;的迭代器&#xff1a; BSTIterator(TreeNode root) 初始化 BSTIterator 类的一个对象。BST 的根节点 root 会作为构造函数的一部分给出。指针应初始化为一个…

【计算机组成】计算机组成与结构(四)

上一篇&#xff1a;【计算机组成】计算机组成与结构&#xff08;三&#xff09; &#xff08;7&#xff09;存储系统 计算机采用分级存储体系的主要目的是为了解决存储容量、成本和速度之间的矛盾问题。 两级存储:cache-主存、主存-辅存(虚拟存储体系) 局部性原理 ◆ 局部性…

Linux最常用基本指令合集(基本指令,这一篇就够了)

目录 听说点赞的UU会撞大运哦&#xff01;&#xff01;&#xff01; 基本指令&#xff1a; ls指令&#xff1a; cd指令&#xff1a; makdir指令&#xff1a; cat指令&#xff1a; rm指令&#xff1a; mv指令&#xff1a; cp指令&#xff1a; nano指令&#xff1a; m…

初始Java篇(JavaSE基础语法)(4)(数组)(万字详解版)

个人主页&#xff08;找往期文章包括但不限于本期文章中不懂的知识点&#xff09;&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 目录 数组的创建及初始化 数组的创建 数组的初始化 数组的使用 遍历数组 数组是引用类型 基本类型变量与引用类型变量的区别 引用变量 认识 …

Java学习笔记 | Java基础语法 | 03 | 流程控制语句

文章目录 0 前言1.流程控制语句1.1 流程控制语句分类1.2 顺序结构 2.判断语句2.1 if语句1. if语句格式1练习1&#xff1a;老丈人选女婿练习2&#xff1a;考试奖励 2. if语句格式2练习1&#xff1a;吃饭练习2&#xff1a;影院选座 3. if语句格式3练习1&#xff1a;考试奖励 2.2 …

开源表单工作流引擎好用吗?

如果想提升办公协作效率&#xff0c;可以用什么样的平台软件实现&#xff1f;在竞争越来越激烈的社会中&#xff0c;想要实现高效率的办公&#xff0c;可以一起了解低代码技术平台以及开源表单工作流引擎。它们的易操作、灵活、简便等优势特点已成为了中小企业喜爱的优势特点。…

前缀和(三)

题目&#xff1a;激光炸弹 1 链接 P2280 [HNOI2003] 激光炸弹 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 2.大体思路 先开辟一个全局变量的 s 二维数组&#xff0c;这个二维数组开成 s [ 5010 ] [ 5010 ] &#xff0c;这个是为了&#xff0c;能够将它所给的所有有价值的…