hadoop01_完全分布式搭建

hadoop完全分布式搭建

1 完全分布式介绍

Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上 自己测试)、伪分布式模式(和集群接轨 HDFS yarn,在一台服务器上执行)、完全分布式模式

本地模式:(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时候也是在本地机器上运行)

伪分布式模式:伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务

完全分布式:完全分布式其实就是多台机器上分别启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。

在真实的企业环境中,服务器集群会使用到多台机器,共同配合,来构建一个完整的分布式文件系统。而在这样的分布式文件系统HDFS相关的守护进程也会分布在不同的机器上,例如:

  • NameNode守护进程,尽可能的单独部署在一台硬件性能较好的机器中。
  • 其他的每台机器上都会部署一个Datanode守护进程,一般的硬件环境即可。
  • SecondaryNameNode守护进程最好不要和NameNode在同一台机器上

2 部署环境

2.1 搭建环境&软件

软件 & 平台备注
宿主系统windows10
虚拟机软件、系统vmware17,centos7.5
虚拟机主机名:node1, ip:192.168.149.111
主机名:node2 , ip:192.168.149.112
主机名:node3 , ip:192.168.149.113
hadoop版本hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
SSH远程连接工具xshell7
软件安装包上传路径/export/software
软件安装路径/export/software/jdk 、 /export/software/hadoop
jdk环境jdk-8u241-linux-x64

2.2 守护进程布局

NameNodeDataNodeSecondaryNameNode
hadoop1
hadoop2
hadoop3

3 准备工作

  1. 三台机器的防火墙必须是关闭的.
  2. 确保三台机器的网络配置畅通(NAT模式,静态IP,主机名的配置)
  3. 确保/etc/hosts文件配置了ip和hostname的映射关系
  4. 确保配置了三台机器的免密登陆认证(克隆会更加方便)
  5. 确保所有机器时间同步
  6. jdk和hadoop的环境变量配置
3.0 安装ifconfig 和vim
如果没有ifconfig
yum search ifconfig
yum install net-tools.x86_64yum -y install vim
3.1 关闭防火墙
# 三台虚拟机均操作
systemctl status firewalld  # 查看防火墙状态
systemctl stop firewalld    # 关闭防火墙
systemctl disable firewalld # 禁止使用防火墙
3.2 配置静态ip
# 三台虚拟机均操作
vim/etc/sysconfig/network-scripts/ifcfg-ens32 IPADDR="192.168.149.111"
NETMASK="255.255.255.0"
GATEWAY="192.168.149.2"
DNS1="114.114.114.114"
3.3 配置hostname的映射关系
# 三台虚拟机均操作
# 1. 修改主机名
vim /etc/hostname
node1# 或者 
hostnamectl --static set-hostname node1# 2. 修改映射
vim /etc/hosts127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.149.111 node1
192.168.149.112 node2
192.168.149.113 node3
3.4 免密登陆认证
# ssh免密登录(只需要配置node1至node1、node2、node3即可)# 1. node1生成公钥私钥 (一路回车)ssh-keygen  # 2. node1配置免密登录到node1 node2 node3ssh-copy-id node1ssh-copy-id node2ssh-copy-id node3sh# 如果失败,查看/root目录下的.sshls -la# 将已有的.ssh删除,重复上述操作# 3. 进行验证 ssh node1ssh node2ssh node3# 同时配置其余两台机器
3.5 时间同步
# 集群时间同步
yum -y install ntpdate
ntpdate ntp5.aliyun.com
3.6 jdk环境变量配置
# 1. 将jdk安装包上传到/export/software/jdk
# 2. 解压jdk安装包
tar -xvf  jdk-8u241-linux-x64.tar.gz # 3. 配置环境变量
vim /etc/profileexport JAVA_HOME=/export/software/jdk/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar# 4. 重新加载环境变量文件
source /etc/profile# 5. 查看jdk环境
java -version
3.7 hadoop安装与环境变量配置
# 1. 将hadoop安装包上传到/export/software/hadoop
# 2. 解压hadoop
tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz 
# 3 .配置环境变量
vim /etc/profileexport HADOOP_HOME=/export/software/hadoop/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile

4 hadoop文件配置

配置文件位置: /$HADOOP_HOME/etc/hadoop

4.1 core-site.xml
<!-- 设置namenode节点 -->
<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<!-- 注意: hadoop1.x时代默认端口9000 hadoop2.x时代默认端口8020 hadoop3.x时代默认端口 9820 -->
<property><name>fs.defaultFS</name><value>hdfs://node1:9820</value>
</property><!-- 设置Hadoop本地保存数据路径 hdfs基础路径,被其他属性所依赖的路径
-->
<property><name>hadoop.tmp.dir</name><value>/export/software/hadoop/hadoop-3.3.0/tmp</value>
</property><!-- 设置HDFS web UI用户身份 -->
<property><name>hadoop.http.staticuser.user</name><value>root</value>
</property><!-- 整合hive 用户代理设置 -->
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property><property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property><!-- 文件系统垃圾桶保存时间 -->
<property><name>fs.trash.interval</name><value>1440</value>
</property>
4.2 hdfs-site.xml
<!-- 块的副本数量 --> 
<property> <name>dfs.replication</name> <value>3</value>
</property> <!-- 设置SNN进程运行机器位置信息
secondarynamenode守护进程的http地址:主机名和端口号。参考守护进程布局 --> 
<property><name>dfs.namenode.secondary.http-address</name><value>node2:9868</value>
</property><!-- namenode守护进程的http地址:主机名和端口号。参考守护进程布局 --> 
<property> <name>dfs.namenode.http-address</name><value>node1:9870</value> 
</property>
4.3 hadoop-env.sh
#文件最后添加
export JAVA_HOME=/export/software/jdk/jdk1.8.0_241# Hadoop3中,需要添加如下配置,设置启动集群角色的用户是谁
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 
4.4 workers
node1
node2
node3
4.5 mapred-site.xml
<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property><!-- MR程序历史服务地址 -->
<property><name>mapreduce.jobhistory.address</name><value>node1:10020</value>
</property><!-- MR程序历史服务器web端地址 -->
<property><name>mapreduce.jobhistory.webapp.address</name><value>node1:19888</value>
</property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
4.6 yarn-site.xml
<!-- 设置YARN集群主角色运行机器位置 -->
<property><name>yarn.resourcemanager.hostname</name><value>node1</value>
</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property><!-- 是否将对容器实施物理内存限制 -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property><!-- 是否将对容器实施虚拟内存限制。 -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property><!-- 开启日志聚集 -->
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property><!-- 设置yarn历史服务器地址 -->
<property><name>yarn.log.server.url</name><value>http://node1:19888/jobhistory/logs</value>
</property><!-- 历史日志保存的时间 7天 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

5 启动hadoop

5.1 格式化namenode

首次启动)格式化namenode

hdfs namenode -format
5.2 启动服务
start-dfs.sh # 启动HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
stop-dfs.sh # 停止HDFS所有进程(NameNode、SecondaryNameNode、DataNode)hadoop-daemon.sh start namenode # 只开启NameNode
hadoop-daemon.sh start secondarynamenode # 只开启SecondaryNameNode
hadoop-daemon.sh start datanode # 只开启DataNodehadoop-daemon.sh stop namenode # 只关闭NameNode
hadoop-daemon.sh stop secondarynamenode # 只关闭SecondaryNameNode
hadoop-daemon.sh stop datanode # 只关闭DataNodestart-all.sh  # 启动所有服务
stop-all.sh   # 关闭所有服务
5.3 查看节点
jps# node1
6371 NameNode
7461 Jps
7094 NodeManager
6519 DataNode
6942 ResourceManager# node2
3617 DataNode
3938 Jps
3731 SecondaryNameNode
3815 NodeManager# node3
3594 Jps
3355 DataNode
3471 NodeManager
5.4 开启页面

Web UI页面

  • HDFS集群:http://192.168.149.111:9870/
  • YARN集群:http://192.168.149.111:8088/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/238458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动评估作业,支持订正最终得分、查看关联代码|ModelWhale 版本更新

冬至时节&#xff0c;2023 已进入尾声&#xff0c;ModelWhale 于今日迎来新一轮的版本更新&#xff0c;与大家一起静候新年的到来。 本次更新中&#xff0c;ModelWhale 主要进行了以下功能迭代&#xff1a; 自动评估作业 新增 提交代码&#xff08;团队版✓ &#xff09;新增…

ARM GIC(四) gicv3架构基础

GICv3架构是GICv2架构的升级版&#xff0c;增加了很多东西。变化在于以下&#xff1a; 使用属性层次&#xff08;affinity hierarchies&#xff09;&#xff0c;来对core进行标识&#xff0c;使gic支持更多的core 将cpu interface独立出来&#xff0c;用户可以将其设计在core…

Vue CLI 设置 publicPath:打包后的应用可部署在任意路径

前言 领导要重新部署多个应用环境&#xff0c;且不受路径层级影响。 于是找到了 Vue CLI 配置 publicpath 配置说明 下图所示&#xff1a; / &#xff1a;默认值&#xff0c;应用部署在根路径上&#xff1b;./&#xff1a;注意前面加了一个点&#xff0c;应用可部署在任意路…

算法基础之扩展欧几里得算法

扩展欧几里得算法 核心思想&#xff1a;裴蜀定理 : 欧几里得算法: 辗转相除法求最大公约数 传入参数(int a,int b,int &x,int &y) 递归(int b,int a%b,int y,int x) xy换位置 方便计算(推公式) #include<iostream>#include<algorithm>using namespac…

Java 封装通用HTTP返回结果类

1.返回结果类: /*** 响应结果* param <T>*/ public class ResponseBean<T> {public ResponseBean() {}/*** 时间戳*/ApiModelProperty(value "时间戳", name "timestamp")private String timestamp DateUtils.dateToStr(new Date(), DateU…

移动零(双指针)

1、题目 给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 请注意 &#xff0c;必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0]示例 2: 输入: nums […

yolo-nas无人机高空红外热数据小目标检测(教程+代码)

前言 YOLO-NAS是目前最新的YOLO目标检测模型。从一开始&#xff0c;它就在准确性方面击败了所有其他 YOLO 模型。与之前的 YOLO 模型相比&#xff0c;预训练的 YOLO-NAS 模型能够以更高的准确度检测更多目标。但是我们如何在自定义数据集上训练 YOLO NAS&#xff1f; 这将是我…

JavaScript高级 class类篇

1、class类的实现 class的基本结构 定义及用法&#xff1a;class关键字定义类&#xff0c;创建构造函数&#xff0c;类名首字母大写 语法结构&#xff1a; class 类名{constructor(参数1,参数2){// 构造函数体&#xff0c;添加实例对象成员}方法名(){// 添加原型对象成员}s…

深入理解Java虚拟机jvm-内存分配与回收

对象优先在Eden分配 新生代总可用空间Eden区1个Survivor区&#xff08;from区&#xff09;的总容量 大多数情况下&#xff0c;对象在新生代Eden区中分配当Eden区没有足够空间进行分配时&#xff0c;虚拟机将发起一次Minor GC存活下来的对象放入Survivor当对象无法放入Survivor空…

效果图云渲染是什么意思?如何渲染出照片级别的效果图?

​在当前的建筑规划、室内装修以及电影视效制作等行业内&#xff0c;制作高质量的效果图起着至关重要的作用&#xff0c;因为它能够给予观众或客户极为逼真和吸引人的视觉体验。在此篇文章中&#xff0c;我们将深入了解什么是云端效果图渲染&#xff0c;并探讨如何运用Renderbu…

MySQL 分表真的能提高查询效率?

背景 首先我们以InnoDB引擎&#xff0c;BTree 3层为例。我们需要先了解几个知识点&#xff1a;页的概念、InnoDB数据的读取方式、什么是树搜索&#xff1f;、一次查询花费的I/O次数&#xff0c;跨页查询。 页的概念 索引树的页&#xff08;page&#xff09;是指存储索引数据…

7-1 建立二叉搜索树并查找父结点(PTA - 数据结构)

按输入顺序建立二叉搜索树&#xff0c;并搜索某一结点&#xff0c;输出其父结点。 输入格式: 输入有三行&#xff1a; 第一行是n值&#xff0c;表示有n个结点&#xff1b; 第二行有n个整数&#xff0c;分别代表n个结点的数据值&#xff1b; 第三行是x&#xff0c;表示要搜索值…

Kylin基础知识点解析与应用探索

目录 学习目标&#xff1a; 学习内容&#xff1a; 学习时间&#xff1a; 学习产出&#xff1a; Kylin简介 什么是Kylin Kylin的历史和发展 Kylin在大数据领域的地位和作用 Kylin架构 Kylin的组成部分和模块 Kylin的工作原理和流程 Kylin与其他大数据组件的关系和集成 Kylin功能…

Java8为什么要引入流Stream API

Java8为什么要引入流Stream API Java 8引入流&#xff08;Stream&#xff09;API的主要原因是为了提供一种更高效、更简洁、更易于阅读和维护的方式来处理数据集合&#xff0c;尤其是在处理大量数据时。流API引入了一种新的抽象层&#xff0c;使得数据处理操作可以更加直观和函…

链接未来:深入理解链表数据结构(二.c语言实现带头双向循环链表)

上篇文章简述讲解了链表的基本概念并且实现了无头单向不循环链表&#xff1a;链接未来&#xff1a;深入理解链表数据结构&#xff08;一.c语言实现无头单向非循环链表&#xff09;-CSDN博客 那今天接着给大家带来带头双向循环链表的实现&#xff1a; 文章目录 一.项目文件规划…

STM32F072 CAN and USB

1 通用描述 1.1 STM8 MOSTek 6502 -> ST7 -> STM8 STM8型号单片机分为STM8A、STM8L、STM8S三个系列。 STM8A&#xff1a;汽车级应用 STM8L&#xff1a;超低功耗MCU STM8S&#xff1a;标准系列 1.2 STM32 - F1系列用的最多&#xff0c;最大工作频率72MHz - STM32固件库&am…

Java商城免 费 搭 建:VR全景到SAAS,各种模式一网打尽!

一、技术选型 java开发语言&#xff1a;java是一种跨平台的编程语言&#xff0c;适用于大型企业级应用开发。使用java开发直播商城可以保证系统的稳定性和可扩展性。 spring boot框架&#xff1a;spring boot是一个快速构建spring应用的框架&#xff0c;简化了开发过程&#xf…

SpringMVC系列之技术点定向爆破一

对SpringMVC的技术点进行逐个拆解&#xff0c;定向爆破。 DispatcherServlet详解 DispatcherServlet中init-param的配置 DispatcherServlet负责接收除“.jsp”外的所有请求并交给Spring处理。因此DispatcherServlet需要优先启动。同时需要加载spring容器的配置&#xff0c;目…

找出将要运行的命令的版本

which 回想一下whereis命令&#xff0c;以及用-b选项只查询KWord的二进制文件信息时发生的情况。 $ whereis -b kword kword: /usr/bin/kword /usr/bin/X11/kword 在两个位置都有KWord的可执行文件。但是哪一个文件会先运行呢&#xff1f;运行which命令就可以得到答案。 $ whi…

导入conda虚拟环境的lib

用 conda 虚拟环境跑代码&#xff0c;import scipy 时报错&#xff1a; ImportError: /lib64/libstdc.so.6: version GLIBCXX_3.4.29 not found (required by /data/itom/miniconda3/envs/cu116_pt1131/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64…