Hadoop-入门

资料来源:尚硅谷-Hadoop

一、Hadoop 概述

1.1 Hadoop 是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2)主要解决:海量数据的存储和海量数据的分析计算问题。

3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

1.2 Hadoop 发展历史

1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,在Lucene框架基础上进行优化升级查询引擎和索引引擎。

2)2001年年底Lucene成为Apache基金会的一个子项目。

3)对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢。

4)学习和模仿Google解决这些问题的办法 :微型版Nutch。

5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

  • GFS --->HDFS
  • Map-Reduce --->MR
  • BigTable --->HBase

6)2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。

7)2005 年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

8)2006 年 3 月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到 Hadoop 项目中,Hadoop就此正式诞生,标志着大数据时代来临。

9)名字来源于Doug Cutting儿子的玩具大象Hadoop的logo

1.3 Hadoop 三大发行版本

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。

  • Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
  • Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008
  • Hortonworks 文档较好,对应产品 HDP。2011

Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。

Apache Hadoop

官网地址:Apache Hadoop

下载地址:Apache Hadoop

1.4 Hadoop 优势(4 高)

优势:

  • 高可靠性
  • 高扩展性
  • 高效性
  • 高容错性

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。

1.5 Hadoop 组成

Hadoop1.x、2.x、3.x区别

在Hadoop1.x时代 ,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。

在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

Hadoop3.x在组成上没有变化。

1.5.1 HDFS架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

HDFS架构概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

1.5.2 YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是Hadoop的资源管理器

YARN架构概述

1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大

2)NodeManager(NM):单个节点服务器资源老大

3)ApplicationMaster(AM):单个任务运行的老大

4)Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

说明1:客户端可以有多个

说明2:集群上可以运行多个ApplicationMaster

说明3:每个NodeManager上可以有多个Container

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据

2)Reduce 阶段对Map结果进行汇总

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 大数据技术生态体系

图中涉及的技术名词解释如下:

1)Sqoop:Sqoop 是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的 HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。

2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;

4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。

7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

1.7 推荐系统框架图

二、Hadoop 运行环境搭建

2.1 模板虚拟机环境准备

0)安装模板虚拟机,IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 50G

配置IP:

(1)修改克隆虚拟机的静态 IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfgens33DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"IPADDR=192.168.10.100
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

(2)查看 Linux 虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8

(3)查看 Windows 系统适配器 VMware Network Adapter VMnet8 的 IP 地址

(4)保证 Linux 系统 ifcfg-ens33 文件中 IP 地址、虚拟网络编辑器地址和 Windows 系统VM8网络IP地址相同。

修改主机名:

1、修改主机名称

vim /etc/hostnamehadoop100

2、配置 Linux 克隆机主机名称映射 hosts 文件

打开/etc/hosts,添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

修改 windows 的主机映射文件(hosts 文件)

C:\Windows\System32\drivers\etc 路径 hosts 文件

1)hadoop100 虚拟机配置要求如下

  1. 使用 yum 安装需要虚拟机可以正常上网,yum 安装前可以先测试下虚拟机联网情况
  2. 安装 epel-release
  3. 注意:如果 Linux 安装的是最小系统版,还需要安装 net-tool、vim
 yum install -y epel-releaseyum install -y net-toolsyum install -y vim

2)关闭防火墙,关闭防火墙开机自启

systemctl stop firewalld
systemctl disable firewalld.service

注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙

3)创建用户,并修改用户的密码

[root@hadoop100 ~]# useradd xiang
[root@hadoop100 ~]# passwd xiang

4)配置用户具有root权限,方便后期加sudo执行root权限的命令

修改/etc/sudoers 文件,在%wheel 这行下面添加一行,如下所示:

xiang ALL=(ALL) NOPASSWD:ALL

5)在/opt 目录下创建文件夹,并修改所属主和所属组

  1. 在/opt 目录下创建 module、software 文件夹
  2. 修改 module、software 文件夹的所有者和所属组均为使用用户
[root@hadoop100 ~]# chown xiang:xiang /opt/module
[root@hadoop100 ~]# chown xiang:xiang /opt/software

6)卸载虚拟机自带的 JDK

注意:如果你的虚拟机是最小化安装不需要执行这一步。

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e--nodeps
  • rpm -qa:查询所安装的所有 rpm 软件包
  • grep -i:忽略大小写
  • xargs -n1:表示每次只传递一个参数
  • rpm -e –nodeps:强制卸载软件

7)重启虚拟机

2.2 克隆虚拟机

1)利用模板机 hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104

注意:克隆时,要先关闭 hadoop100

2)修改克隆机IP

3)修改克隆机主机名

4)重启克隆机

2.3 在 hadoop102 安装JDK

1)卸载现有JDK。注意:安装 JDK 前,一定确保提前删除了虚拟机自带的 JDK

2)用 XShell 传输工具将 JDK 导入到 opt 目录下面的 software 文件夹下面

3)在 Linux 系统下的 opt 目录中查看软件包是否导入成功

4)解压 JDK 到/opt/module 目录下

5)配置 JDK 环境变量

1、新建/etc/profile.d/my_env.sh 文件

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_401
PATH=$PATH:$JAVA_HOME/bin

2、保存后退出

3、source /etc/profile,让新的环境变量PAT 生效

4、检查JDK是否安装成功

2.4 在 hadoop102 安装 Hadoop

Hadoop 下载地址:Index of /dist/hadoop/common

1)用 XShell 文件传输工具将 hadoop-3.1.3.tar.gz 导入到 opt 目录下面的 software 文件夹下面

2)进入到 Hadoop 安装包路径下

3)解压安装文件到/opt/module 下面

4)查看是否解压成功

5)将 Hadoop 添加到环境变量

1、打开/etc/profile.d/my_env.sh 文件,在 my_env.sh 文件末尾添加如下内容:

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.6
PATH=$PATH:$HADOOP_HOME/bin
PATH=$PATH:$HADOOP_HOME/sbin

2、保存并退出

3、让修改后的文件生效 source /etc/profile

4、测试是否安装成功

2.5 Hadoop 目录结构

1)查看 Hadoop 目录结构

drwxr-xr-x. 2 xiang xiang   203 6月  18 2023 bin
drwxr-xr-x. 3 xiang xiang    20 6月  18 2023 etc
drwxr-xr-x. 2 xiang xiang   106 6月  18 2023 include
drwxr-xr-x. 3 xiang xiang    20 6月  18 2023 lib
drwxr-xr-x. 4 xiang xiang   288 6月  18 2023 libexec
-rw-rw-r--. 1 xiang xiang 24276 6月  14 2023 LICENSE-binary
drwxr-xr-x. 2 xiang xiang  4096 6月  18 2023 licenses-binary
-rw-rw-r--. 1 xiang xiang 15217 6月  10 2023 LICENSE.txt
-rw-rw-r--. 1 xiang xiang 29473 6月  10 2023 NOTICE-binary
-rw-rw-r--. 1 xiang xiang  1541 6月  10 2023 NOTICE.txt
-rw-rw-r--. 1 xiang xiang   175 6月  10 2023 README.txt
drwxr-xr-x. 3 xiang xiang  4096 6月  18 2023 sbin
drwxr-xr-x. 4 xiang xiang    31 6月  18 2023 share

2)重要目录

  • bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本
  • etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件
  • lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
  • sbin 目录:存放启动或停止 Hadoop 相关服务的脚本
  • share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例

三、Hadoop运行模式

1)Hadoop官方网站:http://hadoop.apache.org/

2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

  • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
  • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。可用来测试,生产环境不用。
  • 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

3.1 本地运行模式(官方 WordCount)

1)在hadoop文件下面创建一个 wcinput 文件夹

2)在 wcinput 文件下创建一个 word.txt 文件

3)编辑 word.txt 文件

hadoop yarn
hadoop mapreduce
atguigu
atguigu

4)回到 Hadoop 目录

5)执行程序

 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount wcinput wcoutput

6)查看结果

3.2 完全分布式运行模式(开发重点)

分析:

1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称)

2)安装 JDK

3)配置环境变量

4)安装 Hadoop

5)配置环境变量

6)配置集群

7)单点启动

8)配置 ssh

9)启动集群并测试集群

3.2.1 虚拟机准备

详见 2.1、2.2 两节。

3.2.2 编写集群分发脚本 xsync

1)scp(secure copy)安全拷贝

(1)scp 定义

scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

(2)基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

2)rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

(1)基本语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
  • -a 归档拷贝
  • -v 显示复制过程

3)xsync 集群分发脚本

需求:循环复制文件到所有节点的相同目录下

脚本实现:

(a)在/home/xiang/bin 目录下创建 xsync 文件

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
doecho ==================== $host ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!    fidone
done

3.2.3 SSH 无密登录配置

1) ssh基本语法

ssh 另一台电脑的IP地址

2)无密钥配置

(1)免密登录原理

(2)生成公钥和私钥

[xiang@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)

(3)将公钥拷贝到要免密登录的目标机器上

[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop102
[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop103
[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意:

还需要在 hadoop103、hadoop104上采用 atguigu 账号配置一下无密登录到 hadoop102、hadoop103、hadoop104 服务器上。

还需要在 hadoop102 上采用 root 账号,配置一下无密登录到 hadoop102、hadoop103、hadoop104;

3).ssh文件功能解释

  • known_hosts 记录 ssh 访问过计算机的公钥(public key)
  • id_rsa 生成的私钥
  • id_rsa.pub 生成的公钥
  • authorized_keys 存放授权过的无密登录服务器公钥

3.2.4 集群配置

1)集群部署规划

注意:

  • NameNode 和 SecondaryNameNode 不要安装在同一台服务器
  • ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

2)配置文件说明

Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

(1)默认配置文件:

(2)自定义配置文件:

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置。

3)配置集群

(1)核心配置文件

配置 core-site.xm

<configuration><!-- 指定 NameNode 的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property><!-- 指定 hadoop 数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.3.6/data</value></property><!-- 配置 HDFS 网页登录使用的静态用户 --><property><name>hadoop.http.staticuser.user</name><value>xiang</value></property>
</configuration>

(2)HDFS 配置文件

配置 hdfs-site.xml

<configuration><!-- nn web 端访问地址--><property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value></property><!-- 2nn web 端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property>
</configuration>

(3)YARN 配置文件

配置 yarn-site.xml

<configuration><!-- Site specific YARN configuration properties --><!-- 指定 MR 走 shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 ResourceManager 的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop103</value></property><!-- 环境变量的继承 --><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property>
</configuration>

(4)MapReduce 配置文件

配置 mapred-site.xml

<configuration><!-- 指定 MapReduce 程序运行在 Yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>

4)在集群上分发配置好的 Hadoop 配置文件

xsync /opt/module/hadoop-3.3.6/etc/hadoop/

3.2.5 启动集群

1)配置 workers

vim /opt/module/hadoop-3.3.6/etc/hadoop/workershadoop102
hadoop103
hadoop104

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

同步所有节点配置文件:

xsync /opt/module/hadoop-3.3.6/etc

2)启动集群

(1)如果集群是第一次启动,需要在 hadoop102 节点格式化 NameNode

(注意:格式化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。)

[xiang@hadoop102 hadoop-3.3.6]$ hdfs namenode -format

(2)启动 HDFS

[xiang@hadoop102 hadoop-3.3.6]$ sbin/start-dfs.sh

(3)在配置了 ResourceManager 的节点(hadoop103)启动 YARN

[xiang@hadoop103 hadoop-3.3.6]$ sbin/start-yarn.sh

(4)Web 端查看

(a)查看 HDFS 上存储的数据信息:http://hadoop102:9870

(b)查看 YARN 上运行的 Job 信息:http://hadoop103:8088

3)集群基本测试

(1)上传文件到集群

上传小文件

[xiang@hadoop102 ~]$ hadoop fs -mkdir /input
[xiang@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

上传大文件

[xiang@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u401-linux-x64.tar.gz /

(2)上传文件后查看文件存放在什么位置

查看 HDFS 文件存储路径

cd /opt/module/hadoop-3.3.6/data/dfs/data/current/BP-322709393-192.168.10.102-1707663797010/current/finalized/

查看 HDFS 在磁盘存储文件内容

(3)执行 wordcount 程序

[xiang@hadoop102 hadoop-3.3.6]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

3.2.6 配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

1)配置 mapred-site.xml

    <!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address</name><value>hadoop102:10020</value></property><!-- 历史服务器 web 端地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop102:19888</value></property>

2)分发配置

[xiang@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3)在 hadoop102 启动历史服务器

[xiang@hadoop102 hadoop]$ mapred --daemon start historyserver

4)查看历史服务器是否启动

5)查看 JobHistory http://hadoop102:19888/jobhistory

3.2.7 配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer。

开启日志聚集功能具体步骤如下:

1)配置 yarn-site.xml

    <!-- 开启日志聚集功能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址 --><property><name>yarn.log.server.url</name><value>http://hadoop102:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>

2)分发配置

[xiang@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3)关闭 NodeManager 、ResourceManager 和 HistoryServer

[xiang@hadoop103 hadoop-3.3.6]$ sbin/stop-yarn.sh[xiang@hadoop102 hadoop-3.3.6]$ mapred --daemon stophistoryserver

4)启动 NodeManager 、ResourceManage 和 HistoryServer

[xiang@hadoop103 ~]$ start-yarn.sh[xiang@hadoop102 ~]$ mapred --daemon start historyserver

5)删除 HDFS 上已经存在的输出文件

[xiang@hadoop102 ~]$ hadoop fs -rm -r /output

6)执行 WordCount 程序

7)查看日志

(1)历史服务器地址http://hadoop102:19888/jobhistory

(2)历史任务列表

(3)查看任务运行日志

(4)运行日志详情

3.2.8 集群启动/停止方式总结

1)各个模块分开启动/停止

(配置 ssh 是前提)

(1)整体启动/停止HDFS

 start-dfs.shstop-dfs.sh

(2)整体启动/停止 YARN

start-yarn.sh
stop-yarn.sh

2)各个服务组件逐一启动/停止

(1)分别启动/停 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

(2)启动/停止 YARN

yarn --daemon start/stop resourcemanager/nodemanager

3.2.9 编写 Hadoop 集群常用脚本

1)Hadoop 集群启停脚本

myhadoop.sh(包含 HDFS,Yarn,Historyserver)

#!/bin/bash
if [ $# -lt 1 ]
thenecho "No Args Input..."
exit ;
ficase $1 in"start")echo " =================== 启动 hadoop 集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.6/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.3.6/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.6/bin/mapred --daemon start historyserver";;"stop")echo " =================== 关闭 hadoop 集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.6/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.3.6/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.6/sbin/stop-dfs.sh"       ;;"shutdown")echo " =================== 关闭 hadoop 集群 及主机 ==================="/home/xiang/bin/myhadoop.sh stopecho " =================== 关闭主机 ==================="ssh hadoop102 "sudo shutdown"ssh hadoop103 "sudo shutdown"ssh hadoop104 "sudo shutdown";;*)echo "Input Args Error...";;
esac

2)查看三台服务器 Java 进程脚本

jpsall

#!/bin/bashfor host in hadoop102 hadoop103 hadoop104
doecho =============== $host ===============ssh $host jps
done

3)分发/home/atguigu/bin 目录

保证自定义脚本在三台机器上都可以使用

[xiang@hadoop102 ~]$ xsync /home/xiang/bin/

3.2.10 常用端口号说明

3.2.11 集群时间同步

如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;

如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。

1)需求

找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,生产环境根据任务对时间的准确程度要求周期同步。

测试环境为了尽快看到效果,采用 1 分钟同步一次。

2)时间服务器配置(必须 root 用户)

(1)查看所有节点 ntpd 服务状态和开机自启动状态

[xiang@hadoop102 ~]$ sudo systemctl status ntpd
[xiang@hadoop102 ~]$ sudo systemctl start ntpd
[xiang@hadoop102 ~]$ sudo systemctl is-enabled ntpd

(2)修改 hadoop102 的 ntp.conf 配置文件

[xiang@hadoop102 ~]$ sudo vim /etc/ntp.conf# 授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap# 集群在局域网中,不使用其他互联网上的时间
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst# 当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
server 127.127.1.0
fudge 127.127.1.0 stratum 10

(3)修改 hadoop102 的/etc/sysconfig/ntpd 文件

# (让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes

(4)重新启动 ntpd 服务

[xiang@hadoop102 ~]$ sudo systemctl start ntpd

(5)设置 ntpd 服务开机启动

[xiang@hadoop102 ~]$ sudo systemctl enable ntpd

3)其他机器配置(必须 root 用户)

(1)关闭所有节点上 ntp 服务和自启动

[xiang@hadoop103 ~]$ sudo systemctl stop ntpd
[xiang@hadoop103 ~]$ sudo systemctl disable ntpd[xiang@hadoop104 ~]$ sudo systemctl stop ntpd
[xiang@hadoop104 ~]$ sudo systemctl disable ntpd

(2)在其他机器配置 1 分钟与时间服务器同步一次

[xiang@hadoop103 ~]$ sudo crontab -e*/1 * * * * /usr/sbin/ntpdate hadoop102

(3)修改任意机器时间

[xiang@hadoop103 ~]$ sudo date -s "2024-01-11 11:11:11"

(4)1 分钟后查看机器是否与时间服务器同步

四、常见错误及解决方案

1)防火墙没关闭、或者没有启动 YARN

2)主机名称配置错误

3)IP 地址配置错误

4)ssh 没有配置好

5)root 用户和 atguigu 两个用户启动集群不统一

6)配置文件修改不细心

7)不识别主机名称

(1)在/etc/hosts 文件中添加 192.168.10.102 hadoop102

(2)主机名称不要起 hadoop hadoop000 等特殊名称

8)DataNode 和 NameNode 进程同时只能工作一个。

9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效解决办法:尽量不要粘贴 Word 中代码。

10)jps 发现进程已经没有,但是重新启动集群,提示进程已经开启。原因是在 Linux 的根目录下/tmp 目录中存在启动的进程临时文件,将集群相关进程删除掉,再重新启动集群。

11)jps 不生效原因:全局变量 hadoop java 没有生效。解决办法:需要 source /etc/profile 文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/794786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出 -- 系统架构之分布式常见理论概念

随着计算机科学和互联网的发展&#xff0c;分布式场景变得越来越常见&#xff0c;能否处理好分布式场景下的问题&#xff0c;成为衡量一个工程师是否合格的标准。本文我们介绍下分布式系统相关的理论知识&#xff0c;这些理论是我们理解和处理分布式问题的基础。 CAP理论 CAP…

深入理解选择排序:算法原理、Java实现与性能优劣

算法学习的重要性 在程序员的世界里&#xff0c;算法就如同一座桥梁&#xff0c;连接着问题与解决方案&#xff0c;是实现优秀程序的关键。 掌握算法&#xff0c;就能够在面对各种问题时&#xff0c;找到最合适的解决方法&#xff0c;以最少的时间和空间&#xff0c;实现最优的…

Android数据存储技术

一、文件存储 <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:orientation"vertical"android:layout_width"match_parent"android:layout_height"match_parent" ><EditTextandroid:id&qu…

mac 切换 jdk

查看 mac 上都有哪些版本 /usr/libexec/java_home -V看准版本切换 按前缀切换 比如 export JAVA_HOME/usr/libexec/java_home -v 1.8这样会随机一个 1.8 的 如果想再确定一个比如 openjdk export JAVA_HOME/usr/libexec/java_home -v 1.8.0_292这个方式是临时的&#xff0c…

【力扣刷题日记】1421.净现值查询

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 1421.净现值查询 表&#xff1a;NPV 列名类型idintyearintnpvint (id, year) 是该表主键(具有唯一值的列的…

用友NC Cloud importhttpscer 任意文件上传漏洞复现

0x01 产品简介 用友 NC Cloud 是一种商业级的企业资源规划云平台,为企业提供全面的管理解决方案,包括财务管理、采购管理、销售管理、人力资源管理等功能,基于云原生架构,深度应用新一代数字技术,打造开放、 互联、融合、智能的一体化云平台,支持公有云、混合云、专属云…

AI绘画:实例-利用Stable Diffusion ComfyUI实现多图连接:区域化提示词与条件设置

在Stable Diffusion ComfyUI中&#xff0c;有一种高级技巧可以让用户通过细致的区域化提示词来控制图像的不同部分&#xff0c;从而实现多图连接的效果。这种方法允许艺术家在同一画布上展现多个场景&#xff0c;创造出富有层次和故事性的图像。以下是实现这一效果的详细步骤。…

Leetcode链表刷题总结(Java版)

链表 1、移除链表元素&#xff08;考虑全情况&#xff09; 问题需求&#xff1a;根据给定的val值&#xff0c;移除链表中值是这个val的节点 203. 移除链表元素 - 力扣&#xff08;LeetCode&#xff09; 这里有一个问题就是&#xff0c;如果需要被移除的节点不是中间的某个节点…

Tuxera2023 NTFS for Mac下载,安装和序列号激活

对于必须在Windows电脑和Mac电脑之间来回切换的Mac朋友来说&#xff0c;跨平台不兼容一直是一个巨大的障碍&#xff0c;尤其是当我们需要使用NTFS格式的硬盘在Windows和macOS之间共享文件时。因为Mac默认不支持写入NTFS磁盘。 为了解决这一问题&#xff0c;很多朋友会选择很便捷…

【Java基础知识总结 | 第十篇】HashSet底层实现原理

文章目录 10.HashSet底层实现原理10.1HashSet特点10.2HashSet源码10.3 add流程10.4总结 10.HashSet底层实现原理 10.1HashSet特点 存储对象&#xff1a;HashSet 存储对象采用哈希表的方式&#xff0c;它不允许重复元素&#xff0c;即集合中不会包含相同的元素。当向 HashSet …

数据挖掘中的PCA和KMeans:Airbnb房源案例研究

目录 一、PCA简介 二、数据集概览 三、数据预处理步骤 四、PCA申请 五、KMeans 聚类 六、PCA成分分析 七、逆变换 八、质心分析 九、结论 十、深入探究 10.1 第 1 步&#xff1a;确定 PCA 组件的最佳数量 10.2 第 2 步&#xff1a;使用 9 个组件重做 PCA 10.3 解释 PCA 加载和特…

【微服务】------核心组件架构选型

1.微服务简介 微服务架构&#xff08;Microservice Architecture&#xff09;是一种架构概念&#xff0c;旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦&#xff0c;从而降低系统的耦合性&#xff0c;并提供更加灵活的服务支持。 2.微服务技术选型 区域内容…

Kotlin学习日志(一)TextView、Button、Toast的使用(1)

android:layout_width“wrap_content” android:layout_height“wrap_content”/> import kotlinx.android.synthetic.main.activity_main.* 这句话的意思是引进Kotlin的的控件变量自动映射功能&#xff0c;接下来只要是这个activity_main.xml文件中的控件&#xff0c;我…

蓝桥杯第十四届C++A组(未完)

【规律题】平方差 题目描述 给定 L, R&#xff0c;问 L ≤ x ≤ R 中有多少个数 x 满足存在整数 y,z 使得 。 输入格式 输入一行包含两个整数 L, R&#xff0c;用一个空格分隔。 输出格式 输出一行包含一个整数满足题目给定条件的 x 的数量。 样例输入 1 5 样例输出 …

OpenTofu路在何方:定量分析Terraform issue数据,洞察用户需求|OpenTofu Day 闪电演讲

数澈软件 Seal 首席架构师李平辉提交的演讲议题“Alias TerraformTofu. Job’s Done, Now What?”入选 KubeCon EU 同场活动 OpenTofu Day&#xff0c;本文为演讲实录。 大家好&#xff0c;我是 Lawrence&#xff0c;是 Seal 的首席架构师。今天将由我为大家带来 Lightening T…

后端开发框架Spring Boot快速入门

写在前面 推荐将本文与Spring Boot 相关知识和工具类一文结合起来看&#xff0c;本文为主&#xff0c;上面那篇文章为辅&#xff0c;一起食用&#xff0c;以达到最佳效果&#xff0c;当然&#xff0c;大佬随意。 IDEA创建Spring Boot工程 关于Spring Boot框架项目&#xff0…

第二节课《轻松玩转书生·浦语大模型趣味 Demo》

比较匆忙&#xff0c;假期前仿照第一期课程的内容好像被清空了&#xff0c;重新搭建一次。 https://github.com/InternLM/Tutorial/blob/camp2/helloworld/hello_world.md 按照那老师写好的&#xff0c;一步步复制就好了 浦语灵笔2的大概率是会超出显存&#xff0c;先不测试了…

MySQL-排序与分页

1. 排序 如果没有使用排序操作&#xff0c;默认情况下查询返回的数据是按照添加数据的顺序显示的。 SELECT * FROM employees;1.1 基本使用 1&#xff09;使用 ORDER BY 对查询到的数据进行排序操作。 升序&#xff1a;ASC(ascend)降序&#xff1a;DESC (descend) 练习&am…

2024.4.4-[作业记录]-day09-CSS 布局模型(标准流模型、浮动模型)

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 作业 2024.4.4-学习笔记1 CSS 布局模型1.1 标准流1.2 CSS 浮动1.3 去除塌陷 2…

【零基础学数据结构】顺序表实现书籍存储

目录 书籍存储的实现规划 ​编辑 前置准备&#xff1a; 书籍结构体&#xff1a; 书籍展示的初始化和文件加载 书籍展示的销毁和文件保存 书籍展示的容量检查 书籍展示的尾插实现 书籍展示的书籍增加 书籍展示的书籍打印 书籍删除展示数据 书籍展示修改数据 在指定位置之前…