1 Hadoop集群环境搭建概述
所谓集群,就是一组通过网络互联的计算机,集群中的每一台计算机称作一个节点,Hadoop集群搭建就是在这个物理集群之上安装部署Hadoop相关的软件,然后对外提供大数据存储和分析等相关服务。
一个前提:Hadoop是为了在Linux平台上使用而开发的
一个现实:我们的电脑不是Linux系统
如何解决???搭建虚拟机,在虚拟机上安装Linux操作系统
虚拟机是什么?虚拟的计算机,功能和真实计算机几乎完全一样如何搭建虚拟机?在真实电脑上安装虚拟化软件来实现虚拟机的搭建虚拟化软件有哪些?VMware workstation和Virtualbox版本选择及注意事项12,13,14,15,16,17都可以,但是要注意输入对应版本的序列号
Linux运行环境的部署: 搭建一个虚拟机,然后再在这个虚拟机上直接安装部署Linux操作系统
来实现Linux运行环境。
2 Hadoop分布式环境搭建
(0)准备模板虚拟机
配置(依情况而定,太小跑程序会有问题),例如:
主机名称:hadoop100(可以自己起,仅仅在Vmware中显示)
内存:2G
硬盘:20G
IP 地址:192.168.10.100
作用:安装分布式节点所需的软件并进行配置
(1)hadoop100 虚拟机配置要求如下:
➢ yum 安装需要虚拟机可以正常上网,首先 确保虚拟机能够联网 ;
(yum就是去找服务器,把你要的资源拉下来)
➢ 安装epel-release
注1:Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS 和 Scientific Linux。相当于 是一个软件仓库,大多数rpm 包在官方repository 中是找不到的)
注2:如果Linux 安装的是最小系统版,还需要手动安装net-tools、vim 等工具(最好不要最小化安装)
(2)关闭防火墙,关闭防火墙开机自启动
[root@hadoop100 ~]# systemctl stop firewalld[root@hadoop100 ~]# systemctl disable firewalld[root@hadoop100 ~]# systemctl status firewalld
为什么要关掉防火墙?因为他们之间要进行互通,关闭防火墙是为了他们之间在构建集群的时候不会因为防火墙和端口的限制
(3)创建hadoop 用户,并修改hadoop 用户的密码
[root@hadoop100 ~]# useradd hadoop[root@hadoop100 ~]# passwd hadoop
(4)配置hadoop 用户具有root 权限,方便后期加sudo 执行root 权限的命令
[root@hadoop100 ~]# vim /etc/sudoers## Allow root to run any commands anywhereroot ALL=(ALL) ALLhadoop ALL=(ALL) ALL
注意:基本配置用hadoop,安装软件,启动服务都用hadoop
(5)在/opt目录下创建文件夹,并修改所属主和所属组
1)在/opt目录下创建 module、software文件夹
2)修改 module、software文件夹的所有者和所属组均为hadoop用户
3)查看 module、software文件夹的所有者和所属组
[root@hadoop100 ~]# chown hadoop:hadoop /opt/module[root@hadoop100 ~]# chown hadoop:hadoop /opt/software
为什么要创建这些文件夹?为了使目录结构更加规整 /opt是第三方管理软件,为什么要修改文件夹和所属组为root用户?这涉及到权限问题,要求有写的权限
你没有就自己创建,我用我自己创建的普通用户
(6)卸载自带jdk(最小化安装不需要)
[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
➢ rpm -qa :查询所安装的所有 rpm 软件包
➢ grep -i :忽略大小写
➢ xargs -n1 :表示每次只传递一个参数
➢ rpm -e –nodeps :强制卸载软件
这个步骤很重要,以后如果涉及到开发运维这些都是最基本的
为什么要强制卸载java呢?因为可能版本不兼容,所以要卸载,因为可能有依赖关系,所以强制卸
(7)配置静态ip
1)配置虚拟机IP
这里我写的比较简略,因为我已经很熟练了,这个是我当时学配置静态ip的博客,会改就行
虚拟机配置静态IP(NAT模式)_nat子网的准入_阿祖,收手吧的博客-CSDN博客
[root@hadoop100 ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
[root@hadoop100 ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
OWSER_ONLY=no
BOOTPROTO=static
……
NAME=ens33
UUID=9473daea-1240-40a7-ada1-a2aa06f7b09d
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.133.100
PREFIX=24
GATEWAY=192.168.133.2
DNS1=192.168.133.2
上面是我之前的ip地址,下面这个是我配置的ip地址
重启一下网络,发现ip变成自己改的ip
(8)修改主机名称
1)修改主机名称
[root@hadoop100 ~]# vim /etc/hostnamehadoop100
里面的内容删了就行,这里建议直接改配置文件,因为fhostname hadoop100只会维护一段时间
2)修改主机名称
[root@hadoop100 ~]# vim /etc/hosts192.168.10.100hadoop100192.168.10.101hadoop101192.168.10.102hadoop102192.168.10.103 hadoop103
(9)重启虚拟机hadoop100
[root@hadoop100 ~]# reboot
(10)修改windows主机的hosts文件,添加以下内容
192.168.10.100hadoop100192.168.10.101hadoop101192.168.10.102hadoop102192.168.10.103 hadoop103
经过上述步骤系统相关设置基本完成。接下来需要安装软件:
1)JDK
2)Hadoop
上述系统配置使用root用户完成,比较方便。以下软件安装步骤统一使用上
述创建的 hadoop用户完成
伪分布式的配置
伪分布式我配了五六遍了,发现老师给的ppt里面配置文件写错了
Web端查看HDFS的NameNode,浏览器输入http://hadoop102:9870
Web端查看YARN的ResourceManager,在浏览器输入http://hadoop102:8088