linux搭建大数据环境

前期准备工作

友情提醒提前安装好vmware软件,准备好连接虚拟机的客户端

一. 基础环境

1.配置ip地址

修改ip配置文件

[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
# 1.把dhcp修改成static
BOOTPROTO="static"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="dfd8991d-799e-46b2-aaf0-ed2c95098d58"
DEVICE="ens33"
ONBOOT="yes"
# 2.添加以下内容到文件末尾
IPADDR="192.168.88.101"
PREFIX="24"
GATEWAY="192.168.88.2"
NETMASK="255.255.255.0"
DNS1="8.8.8.8"
DNS2="114.114.114.114"
IPV6_PRIVACY="no"

网络服务(关闭启动重启)

[root@node1 ~]# service network stop
[root@node1 ~]# service network start
[root@node1 ~]# service network restart

查看ip地址

[root@node1 /]# ifconfig

2.配置主机名

[root@node1 ~]# vim /etc/hostname 
# 文件内容如下:
node1

3.禁用防火墙

友情提醒先关闭再禁用防火墙

[root@node1 ~]# systemctl stop firewalld.service
[root@node1 ~]# systemctl disable firewalld.service

查看防火墙状态

[root@node1 ~]# systemctl status firewalld.service

默认状态是 Active: active (running) , 关闭后查看状态是Active: inactive (dead)

4.关闭Selinux

SELinux(Security-Enhanced Linux) 是美国国家安全局制造的新安全子系统(它限制了进程只能在允许的范围内操作资源)

如果开启了SELinux, 需要做非常复杂的配置, 才能正常使用系统, 在学习阶段, 在非生产环境, 一般不使用SELinux

SELinux的工作模式:enforcing: 强制模式 permissive:宽容模式 disabled:关闭禁用

[root@node1 ~]# vim /etc/selinux/config
# 默认是强制模式SELINUX=enforcing,进入文件修改为关闭即可
SELINUX=disabled

5.时钟同步

[root@node1 ~]# yum -y install ntpdate
[root@node1 ~]# ntpdate ntp4.aliyun.com
[root@node1 ~]# crontab -e
# crontab -e命令直接在/var/spool/cron目录中编辑并生成root用户的定时任务
# 分时 日月周  定时每分钟连接阿里云时间同步服务器,进行时钟同步
*/1 * * * * /usr/sbin/ntpdate -u ntp4.aliyun.com

6.创建软件安装目录

[root@node1 ~]# mkdir /export
[root@node1 ~]# cd /export
[root@node1 export]# mkdir data logs server software

7.配置域名映射

[root@node1 ~]# vim /etc/hosts
# 文件内容如下:
192.168.88.101 node1.itcast.cn node1
192.168.88.102 node2.itcast.cn node2
192.168.88.103 node3.itcast.cn node3

8.重启系统

[root@node1 ~]# reboot
或者
[root@node1 ~]# init 6

init 进程是 Linux 内核引导运行的用户级进程 .共有7个等级:

0停机或者关机, 1单用户模式, 2多用户模式, 3完全多用户模式, 4安全模式, 5图形界面模式, 6重启

二. 安装jdk软件

1.上传软件

友情提醒使用CRT等客户端远程上传jdk-8u65-linux-x64.tar.gz文件到/export/software目录下

2.解压软件

[root@node1 ~]# cd /export/software/
[root@node1 software]# tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/server/

3.添加环境变量

[root@node1 software]# vim /etc/profile
# 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
# 小技巧 : 按G + o快速到文件末尾
export JAVA_HOME=/export/server/jdk1.8.0_65
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

4.重新加载文件(配置生效)

[root@node1 software]# source /etc/profile

5.检查jdk版本

[root@node1 software]# java -version

三. 安装mysql软件

0.卸载mariadb-libs

友情提醒centos7内部集成了mariadb,而安装mysql的话会和mariadb的文件冲突,所以需要先卸载掉mariadb

[root@node1 software]# rpm -e --nodeps mariadb-libs

1.上传软件

友情提醒使用CRT等客户端远程上传mysql文件文件到/export/software目录下

2.解压软件

[root@node1 software]# mkdir /export/server/mysql5.7
[root@node1 software]# cd /export/software/mysql\ 5.7.29/
[root@node1 mysql 5.7.29]# tar -xvf mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar -C /export/server/mysql5.7

3.安装mysql

[root@node1 mysql 5.7.29]# cd /export/server/mysql5.7/
[root@node1 mysql5.7]# rpm -ivh mysql-community-common-5.7.29-1.el7.x86_64.rpm mysql-community-libs-5.7.29-1.el7.x86_64.rpm mysql-community-client-5.7.29-1.el7.x86_64.rpm mysql-community-server-5.7.29-1.el7.x86_64.rpm

4.初始化服务

[root@node1 mysql5.7]# mysqld --initialize

5.修改文件用户和组

[root@node1 mysql5.7]# chown mysql:mysql /var/lib/mysql -R

6.启动mysql服务

[root@node1 mysql5.7]# systemctl start mysqld.service

7.设置开启自动启动

[root@node1 mysql5.7]# systemctl enable mysqld.service

8.查看mysql状态

[root@node1 mysql5.7]# systemctl status mysqld

9.登录mysql

[root@node1 mysql5.7]# Pass=$(grep 'A temporary password' /var/log/mysqld.log |awk '{print $NF}')
​
[root@node1 mysql5.7]# mysql -uroot -p"$Pass"

10.修改root密码且授权远程访问

mysql> alter user user() identified by "123456";
mysql> use mysql;
mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
mysql> FLUSH PRIVILEGES;
mysql> exit;

[了解]卸载mysql软件

#关闭mysql服务
[root@binzi ~]# systemctl stop mysqld.service
​
#查找安装mysql的rpm包
[root@binzi ~]# rpm -qa | grep -i mysql      
​
#卸载
[root@binzi ~]# yum remove mysql-community-libs-5.7.29-1.el7.x86_64 mysql-community-common-5.7.29-1.el7.x86_64 mysql-community-client-5.7.29-1.el7.x86_64 mysql-community-server-5.7.29-1.el7.x86_64
​
#查看是否卸载干净
[root@binzi ~]# rpm -qa | grep -i mysql
​
#查找mysql相关目录 删除
[root@binzi ~]# find / -name mysql
[root@binzi ~]# rm -rf /var/lib/mysql
[root@binzi ~]# rm -rf /var/lib/mysql/mysql
[root@binzi ~]# rm -rf /usr/share/mysql
​
#删除默认配置和日志
[root@binzi ~]# rm -rf /etc/my.cnf 
[root@binzi ~]# rm -rf /var/log/mysqld.log

四. 集群设置免密登录

** 友情提醒克隆node1虚拟机的前置条件:node1虚拟机存在且处于关闭状态**

1.克隆出node2虚拟机

1.node1虚拟机: 右键 -> "管理" -> "克隆"

2.图形化弹窗中: "下一页"->"下一页"->选择"创建完整克隆"再"下一页"->填写: "node2" 并且选择对应位置"再点击"完成"

3.node2虚拟机: 右键 -> "设置" -> "NAT模式" -> "高级" -> "生成"Mac地址再'确定' -> 最后点击"确定"

node2基础配置
  • 修改ip地址

[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 注意此操作是在node2中修改ip地址
IPADDR="192.168.88.102"
  • 修改主机名

[root@node1 ~]# vim /etc/hostname 
# 注意此操作是在node2中修改主机名
node2
  • 重启虚拟机

[root@node1 ~]# reboot
  • 查看配置是否生效

[root@node2 ~]# ifconfig

2.克隆出node3虚拟机

node3基础配置
  • 修改ip地址

[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 注意此操作是在node3中修改ip地址
IPADDR="192.168.88.103"
  • 修改主机名

[root@node1 ~]# vim /etc/hostname 
# 注意此操作是在node3中修改主机名
node3
  • 重启虚拟机

[root@node1 ~]# reboot
  • 查看配置是否生效

[root@node3 ~]# ifconfig

3.CRT操作所有会话

SecureCRT软件: "查看 "- >  选择"交互窗口" -> 右键选择"发送交互到所有会话"

4.设置免密登录

  • 三台虚拟机都生成公钥和私钥

    输入命令(注意需要三次回车操作): ssh-keygen

    友情提醒三台虚拟机都执行完命令后,在 /root/.ssh 中会自动生成两个文件: id_rsaid_rsa.pub

  • 分别拷贝公钥给其他虚拟机

    输入命令(注意需要输入yes和密码): ssh-copy-id node1
    输入命令(注意需要输入yes和密码): ssh-copy-id node2
    输入命令(注意需要输入yes和密码): ssh-copy-id node3
  • 测试免密登录

    输入命令(注意此时会直接登录成功): ssh node1
    输入命令(注意此时会直接登录成功): ssh node2
    输入命令(注意此时会直接登录成功): ssh node3

五. 安装hadoop软件

1.上传软件

友情提醒使用CRT等客户端远程上传 hadoop-3.3.0-Centos7-64-with-snappy.tar.gz文件到/export/software目录下

2.解压软件

[root@node1 ~]# cd /export/software/
[root@node1 software]# tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz -C /export/server/

3.添加环境变量

[root@node1 software]# vim /etc/profile
# 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
# 小技巧 : 按G + o快速到文件末尾
export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • 修改完后重启生效

[root@node1 server]# source /etc/profile

4.1修改配置文件[自动方式]

上传文件

友情提醒使用CRT等客户端远程上传 配置好的文件压缩包hadoop-config.tar文件到/export/software目录下

解压文件
[root@node1 ~]# cd /export/software/
[root@node1 software]# tar -xvf hadoop-config.tar -C /export/server/
覆盖原有文件
[root@node1 software]# mv -f /export/server/hadoop-config/* /export/server/hadoop-3.3.0/etc/hadoop/
[root@node1 software]# rm -rf /export/server/hadoop-config*  

4.2配置文件详解[手动方式]

①hadoop-env.sh文件
[root@node1 hadoop]# vim hadoop-env.sh
# 在55行添加JAVA_HOME,因为Hadoop把当前的执行环境当成远程服务器,所以需要重新配置下
export JAVA_HOME=/export/server/jdk1.8.0_65
# 在440行文件末尾添加以下内容
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 
② core-site.xml文件
[root@node1 hadoop]# vim core-site.xml
<!--  友情提醒在文件的<configuration></configuration>的标签中添加以下内容:  -->
<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property><name>fs.defaultFS</name><value>hdfs://node1:8020</value>
</property>
​
<!-- 设置Hadoop本地保存数据路径 -->
<property><name>hadoop.tmp.dir</name><value>/export/data/hadoop-3.3.0</value>
</property>
​
<!-- 设置HDFS web UI用户身份 -->
<property><name>hadoop.http.staticuser.user</name><value>root</value>
</property>
​
<!-- 整合hive 用户代理设置 -->
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property>
​
<property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property>
​
<!-- 开启垃圾桶机制[可选操作] 1440 表示1440分钟也就是24小时一天的时间-->
<property><name>fs.trash.interval</name><value>1440</value>
</property>
③ hdfs-site.xml文件
[root@node1 hadoop]# vim hdfs-site.xml
<!--  友情提醒在文件的<configuration></configuration>的标签中添加以下内容:  -->    <!-- 指定secondarynamenode运行位置 -->
<property><name>dfs.namenode.secondary.http-address</name><value>node2:9868</value></property>
④ mapred-site.xml文件
[root@node1 hadoop]# vim mapred-site.xml
<!--  友情提醒在文件的<configuration></configuration>的标签中添加以下内容:  -->  <!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
​
<!-- MR程序历史服务器端地址 -->
<property><name>mapreduce.jobhistory.address</name><value>node1:10020</value>
</property>
​
<!-- 历史服务器web端地址 -->
<property><name>mapreduce.jobhistory.webapp.address</name><value>node1:19888</value>
</property>
​
<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
​
<property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
​
<property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
⑤ yarn-site.xml文件
[root@node1 hadoop]# vim yarn-site.xml
<!--  友情提醒在文件的<configuration></configuration>的标签中添加以下内容:  -->    <!-- 设置YARN集群主角色运行机器位置 -->
<property><name>yarn.resourcemanager.hostname</name><value>node1</value>
</property>
​
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
​
<!-- 是否将对容器实施物理内存限制 -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
​
<!-- 是否将对容器实施虚拟内存限制。 -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
​
<!-- 开启日志聚集 -->
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
​
<!-- 设置yarn历史服务器地址 -->
<property><name>yarn.log.server.url</name><value>http://node1:19888/jobhistory/logs</value>
</property>
​
<!-- 保存的时间7天 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>
⑥ workers文件
[root@node1 hadoop]# vim workers
# 用以下内容把之前内容覆盖
node1
node2
node3

5.拷贝软件到其他机器

  • 友情提醒nod1主机上拷贝到node2和node3中各一份

[root@node1 server]# scp -r /export/server/hadoop-3.3.0  root@node2:/export/server/
[root@node1 server]# scp -r /export/server/hadoop-3.3.0  root@node3:/export/server/
  • node2主机配置环境变量

[root@node2 server]# echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /etc/profile
[root@node2 server]# echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile
[root@node2 server]# source /etc/profile
  • node3主机配置环境变量

[root@node3 server]# echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /etc/profile
[root@node3 server]# echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile
[root@node3 server]# source /etc/profile

6.hadoop集群启动[重点]

要启动Hadoop集群,其实就是启动HDFS和YARN两个集群

① 数据初始化

友情提醒首次启动HDFS必须对其进行格式化操作 : 本质是清理和准备工作,因为此时的HDFS在物理上还是不存在的

注意: 初始化操作必须在node1中执行

[root@node1 ~]# hdfs namenode -format
②单节点逐个启动[了解]
启动HDFS集群
  • 在主节点上使用以下命令启动HDFS NameNode

    [root@node1 ~]# hdfs --daemon start namenode

  • 在每个从节点上使用以下命令启动HDFS DataNode

    [root@node2 ~]# hdfs --daemon start datanode
    [root@node3 ~]# hdfs --daemon start datanode

  • node2上使用以下命令启动HDFS SecondaryNameNode

    [root@node2 ~]# hdfs --daemon start secondarynamenode

启动YARN集群
  • 在主节点上使用以下命令启动YARN ResourceManager

    [root@node1 ~]# yarn --daemon start resourcemanager

  • 在每个从节点上使用以下命令启动YARN nodemanager

    [root@node2 ~]# yarn --daemon start nodemanager
    [root@node3 ~]# yarn --daemon start nodemanager

注意: 如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可

③单个集群启动和关闭[了解]
[root@node1 ~]# stop-dfs.sh
[root@node1 ~]# stop-yarn.sh
​
[root@node1 ~]# start-dfs.sh
[root@node1 ~]# start-yarn.sh
④jps查看进程

jps是jdk提供的一个查看当前java进程的小工具, 全称是JavaVirtual Machine Process Status Tool

[root@node1 ~]# jps
[root@node2 ~]# jps
[root@node3 ~]# jps
⑤一键启动和关闭[重点]

如果配置了etc/hadoop/workers和ssh免密登录,则可使用脚本一键操作Hadoop两个集群的相关进程,在主节点所设定的机器上执行

[root@node1 ~]# stop-all.sh
​
[root@node1 ~]# start-all.sh
⑥启动jobHistory服务[重点]

JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中

[root@node1 ~]# mapred --daemon start historyserver

[了解]hadoop shell

[root@node1 ~]# hdfs dfs -ls /
[root@node1 ~]# hdfs dfs -mkdir /binzi
[root@node1 ~]# hdfs dfs -touch /binzi/1.txt /binzi/2.txt
[root@node1 ~]# hdfs dfs -ls /binzi
​
[root@node1 ~]# hdfs dfs -mv /binzi /binzi2
[root@node1 ~]# hdfs dfs -cp /binzi2 /binzi3
​
[root@node1 ~]# echo hello binzi > a.txt
[root@node1 ~]# hdfs dfs -put /root/a.txt /binzi
[root@node1 ~]# hdfs dfs -cat /binzi/a.txt
[root@node1 ~]# hdfs dfs -get /binzi/a.txt /
​
[root@node1 ~]# hdfs dfs -rm /binzi/2.txt
[root@node1 ~]# hdfs dfs -rm -r /binzi
[root@node1 ~]# hdfs dfs -ls /
​
[root@node1 ~]# hdfs dfs 回车

六. 集群web-ui[重点]

一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看,如下所述:

访问HDFS的NameNode主机 : http://192.168.88.101:9870/

访问YARN的ResourceManager主机 : http://192.168.88.101:8088/

注意: 想要上传文件夹需要配置本地域名映射

本地配置域名映射

如果在windows下,去访问 node1 或者是访问 node1.itcast.cn 的时候是被不到。

可以进入 C:\Windows\System32\drivers\etc 目录打开hosts文件,添加以下内容:

192.168.88.101 node1.itcast.cn node1
192.168.88.102 node2.itcast.cn node2
192.168.88.103 node3.itcast.cn node3

配置完成后,可以直接通过node1访问

HDFS: http://node1:9870/

YARN: http://node1:8088/

查看计算任务jobhistory

jobhistory: http://node1:19888/jobhistory

七. 安装hive软件

课程中采用远程模式部署hive的metastore服务。在node1机器上安装。

注意:以下两件事在启动hive之前必须确保正常完成。

1、提前安装mysql,确保具有远程访问的权限

2、启动hadoop集群,确保集群正常能够访问

1.上传软件

友情提醒使用CRT等客户端远程上传 apache-hive-3.1.2-bin.tar.gz 文件到/export/software目录下

2.解压软件

[root@node1 software]# cd /export/software/
[root@node1 software]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /export/server/

3.解决Hive与Hadoop之间guava版本差异

[root@node1 software]# rm -rf /export/server/apache-hive-3.1.2-bin/lib/guava-19.0.jar
[root@node1 software]# cp /export/server/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar /export/server/apache-hive-3.1.2-bin/lib/

4.添加环境变量

[root@node1 software]# vim /etc/profile
# 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
#  友情提醒小技巧 : 按G + o快速到文件末尾
export HIVE_HOME=/export/server/apache-hive-3.1.2-bin
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/sbin
  • 修改完后重启生效

[root@node1 server]# source /etc/profile

5.修改配置文件

①hive-env.sh
  • 修改文件名称

    [root@node1 software]# cd /export/server/apache-hive-3.1.2-bin/conf
    [root@node1 conf]# mv hive-env.sh.template hive-env.sh

  • 打开文件写入数据

    [root@node1 conf]# vim hive-env.sh
    # 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
    # 小技巧 : 按G + o快速到文件末尾
    export HADOOP_HOME=/export/server/hadoop-3.3.0
    export HIVE_CONF_DIR=/export/server/apache-hive-3.1.2-bin/conf
    export HIVE_AUX_JARS_PATH=/export/server/apache-hive-3.1.2-bin/lib

②hive-site.xml

友情提醒该文件默认是没有的,需要我们自己创建

  • 打开文件写入数据

    [root@node1 conf]# vim hive-site.xml
    <configuration>
    <!-- 存储元数据mysql相关配置 -->
    <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://node1:3306/hive3?createDatabaseIfNotExist=true&amp;useSSL=false</value>
    </property>
    ​
    <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    </property>
    ​
    <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    </property>
    ​
    <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>123456</value>
    </property>
    ​
    ​
    ​
    <!-- H2S运行绑定host -->
    <property>
    <name>hive.server2.thrift.bind.host</name>
    <value>node1</value>
    </property>
    ​
    <!-- 远程模式部署metastore metastore地址 -->
    <property>
    <name>hive.metastore.uris</name>
    <value>thrift://node1:9083</value>
    </property>
    ​
    ​
    <!-- 关闭元数据存储授权  --> 
    <property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
    </property>
    </configuration>

6.上传mysql驱动

  • 上传驱动

    上传mysql-connector-java-5.1.32.jar到 /export/software/mysql 5.7.29/ 下

  • 移动驱动

    [root@node1 conf]# cd /export/software/mysql\ 5.7.29/
    [root@node1 mysql 5.7.29]# cp mysql-connector-java-5.1.32.jar /export/server/apache-hive-3.1.2-bin/lib/

7.初始化元数据

友情提醒按如下操作初始化成功后会在mysql中创建74张表

[root@node1 mysql 5.7.29]# cd /export/server/apache-hive-3.1.2-bin/
[root@node1 apache-hive-3.1.2-bin]# schematool -initSchema -dbType mysql -verbos

注意: 初始化成功会在 mysql中创建 74张表

[root@node1 apache-hive-3.1.2-bin]# mysql -uroot -p123456
mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| hive3              |
| mysql              |
| performance_schema |
| sys                |
+--------------------+
5 rows in set (0.00 sec) 

8.在hdfs创建hive存储目录

友情提醒前提: 启动hdfs服务

[root@node1 apache-hive-3.1.2-bin]# hdfs dfs -mkdir /tmp
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -mkdir -p /user/hive/warehouse
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -chmod g+w /tmp
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -chmod g+w /user/hive/warehouse

9.启动hive服务[重点]

  • 启动metastore服务

    一代客户端 : 启动metastore服务

    输入 命令: hive 可以直接进行数据库操作

    # 前台启动(一般不用)  # ctrl+c关闭
    
    [root@node1 apache-hive-3.1.2-bin]# hive --service metastore
    [root@node1 apache-hive-3.1.2-bin]# hive --service metastore --hiveconf hive.root.logger=DEBUG,console
    #后台启动 回车后进程挂起  关闭使用jps+ kill -9
    
    [root@node1 apache-hive-3.1.2-bin]# nohup hive --service metastore &
    [root@node1 apache-hive-3.1.2-bin]# hive
    ​# 直接输入show databases;查看表
    
    hive> show databases;
    # 结果OK default...说明成功
  • 启动hiveserver2服务

    二代客户端 : 启动metastore和hiveserver2服务

    输入命令: beeline 两次验证

    注意: 启动hiveserver2需要一定的时间 不要启动之后立即beeline连接 可能连接不上

    [root@node1 apache-hive-3.1.2-bin]# nohup hive --service metastore &
    [root@node1 apache-hive-3.1.2-bin]# nohup hive --service hiveserver2 &
    [root@node1 apache-hive-3.1.2-bin]# lsof -i:10000
    COMMAND   PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
    java    18804 root  520u  IPv6 266172      0t0  TCP *:ndmp (LISTEN)
    [root@node1 apache-hive-3.1.2-bin]# beeline
    ​# 先输入!connect jdbc:hive2://node1:10000连接
    
    beeline> !connect jdbc:hive2://node1:10000
    # 再输入用户名root,密码不用输入直接回车即可
    
    Enter username for jdbc:hive2://node1:10000: root
    Enter password for jdbc:hive2://node1:10000:
    # 输入show databases;查看表
    
    0: jdbc:hive2://node1:10000> show databases;
    # 结果OK default...说明成功

八. 安装zookeeper软件

1.上传软件

友情提醒使用CRT等客户端远程上传 zookeeper-3.4.6.tar.gz 文件到/export/software目录下

2.解压软件

[root@node1 ~]# cd /export/software/
[root@node1 software]# tar -zxvf zookeeper-3.4.6.tar.gz -C /export/server/
[root@node1 software]# cd /export/server/
[root@node1 server]# mv zookeeper-3.4.6 zookeeper

3.添加环境变量

[root@node1 server]# vim /etc/profile
# 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
# 小技巧 : 按G + o快速到文件末尾
export ZOOKEEPER_HOME=/export/server/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin

  • 修改完后重启生效

[root@node1 server]# source /etc/profile

4.创建数据目录添加myid值为1

[root@node1 server]# mkdir -p /export/server/zookeeper/zkdatas/
[root@node1 server]# echo 1 > /export/server/zookeeper/zkdatas/myid

5.修改配置文件

[root@node1 server]# cd /export/server/zookeeper/conf/
[root@node1 conf]# cp zoo_sample.cfg zoo.cfg
[root@node1 conf]# vim zoo.cfg
# 修改数据存放目录
dataDir=/export/server/zookeeper/zkdatas
# 添加集群中服务地址
server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

6.拷贝到软件到其他机器

  • nod1主机上拷贝到node2和node3中各一份

[root@node1 conf]# cd /export/server/
[root@node1 server]# scp -r /export/server/zookeeper/ node2:/export/server/
[root@node1 server]# scp -r /export/server/zookeeper/ node3:/export/server/
  • node2上修改myid值并且添加环境变量

[root@node2 ~]# echo 2 > /export/server/zookeeper/zkdatas/myid
# 配置环境变量
[root@node2 ~]# echo 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profile
[root@node2 ~]# echo 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profile
[root@node2 ~]# source /etc/profile
  • node3上修改myid值并且添加环境变量

[root@node3 ~]# echo 3 > /export/server/zookeeper/zkdatas/myid
# 配置环境变量
[root@node3 ~]# echo 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profile
[root@node3 ~]# echo 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profile
[root@node3 ~]# source /etc/profile

7.zookeeper服务启动[重点]

如下命令三台服务器均可操作: stop:停止 start:开启 status:状态

友情提醒可以使用crt发送交互到所有会话

# 启动服务
[root@node123 bin]# zkServer.sh start
​
# 查看状态(leader或者follower或者observer)
[root@node123 bin]# zkServer.sh status
​
# 如果想关闭可以使用stop
[root@node123 bin]# zkServer.sh stop

8.命令jps查看进程

jps是jdk提供的一个查看当前java进程的小工具, 全称是JavaVirtual Machine Process Status Tool

[root@node1 ~]# jps
[root@node2 ~]# jps
[root@node3 ~]# jps

[了解]zookeeper shell

  • 进入命令行工具: zkCli.sh -server 主机地址

    # 方式1:直接连接本地
    [root@node1 ~]# zkCli.sh
    ​
    # 方式2:连接其他节点
    [root@node1 ~]# zkCli.sh -server node2
  • 查看zk shell命令: help

    [zk: node1(CONNECTED) 0] help
  • 创建节点: create [-e] [-s] path data acl 解释:默认持久节点,-e表示临时节点,-s表示序列化节点, acl用来进行权限控制

    # 创建节点
    [zk: node1(CONNECTED) 1] create /a 111111
    [zk: node1(CONNECTED) 2] create -e /b 222222
    [zk: node1(CONNECTED) 3] create -s /aa 333333
    [zk: node1(CONNECTED) 4] create -e -s /bb 444444
    # 查看节点
    [zk: node1(CONNECTED) 5] ls /
    [a, b, bb0000000004, aa0000000003, zookeeper]
    [zk: node1(CONNECTED) 6] quit
    # 再次登录后查看节点
    [zk: node1(CONNECTED) 0] ls /
    [a, aa0000000003, zookeeper]
    # 删除节点
    [zk: node1(CONNECTED) 1] rmr /a
    [zk: node1(CONNECTED) 2] rmr /aa0000000003
    # 历史命令
    [zk: node1(CONNECTED) 3] history

九. Hadoop高可用环境搭建

友情提醒确定提前安装好了hadoop和zookeeper

1.删除原有数据文件

三台机器都要进行删除

可以使用CRT发送交互到所有会话

rm -rf /export/data/hadoop

2.安装软件

三台机器都要进行安装

注意: 如果网络较慢安装失败,那就重复安装即可

# 实现多个服务的通讯
yum install psmisc -y  

如果yum不能使用请配置yum源 ( 能下载安装请忽略 )

1.修改原有的yum仓库文件.
进入操作目录: cd /etc/yum.repos.d
mv CentOS-Base.repo  CentOS-Base.repo.bak
2.下载阿里云的镜像文件
curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
3.情况缓存
yum clean all
4.建立新的缓存
yum makecache

3.修改配置文件

先只修改node1,最后拷贝给其他机器

进入hadoop目录
[root@node1 /]# cd /export/server/hadoop-3.3.0/etc/hadoop/
[root@node1 hadoop]# ls
修改hadoop-env.sh

在文件最后添加下面两行

export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
修改core-site.xml

注意: 将之前 configuration 里面的内容全部替换掉

<configuration>
<!-- HA集群名称,该值要和hdfs-site.xml中的配置保持一致 -->
<property><name>fs.defaultFS</name><value>hdfs://cluster1</value>
</property>
​
<!-- hadoop本地磁盘存放数据的公共目录 -->
<property><name>hadoop.tmp.dir</name><value>/export/data/ha-hadoop</value>
</property>
​
<!-- ZooKeeper集群的地址和端口-->
<property><name>ha.zookeeper.quorum</name><value>node1:2181,node2:2181,node3:2181</value>
</property>
​
<!-- 整合hive 用户代理设置 -->
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property>
​
<property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property>
</configuration>
​
修改hdfs-site.xml

友情提醒: 将之前 configuration 里面的内容全部替换掉

<configuration>
<!--指定hdfs的nameservice为cluster1,需要和core-site.xml中的保持一致 -->
<property><name>dfs.nameservices</name><value>cluster1</value>
</property>
​
<!-- cluster1下面有两个NameNode,分别是nn1,nn2 -->
<property><name>dfs.ha.namenodes.cluster1</name><value>nn1,nn2</value>
</property>
​
<!-- nn1的RPC通信地址 -->
<property><name>dfs.namenode.rpc-address.cluster1.nn1</name><value>node1:8020</value>
</property>
​
<!-- nn1的http通信地址 -->
<property><name>dfs.namenode.http-address.cluster1.nn1</name><value>node1:50070</value>
</property>
​
<!-- nn2的RPC通信地址 -->
<property><name>dfs.namenode.rpc-address.cluster1.nn2</name><value>node2:8020</value>
</property>
​
<!-- nn2的http通信地址 -->
<property><name>dfs.namenode.http-address.cluster1.nn2</name><value>node2:50070</value>
</property>
​
<!-- 指定NameNode的edits元数据在JournalNode上的存放位置 -->
<property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://node1:8485;node2:8485;node3:8485/cluster1</value>
</property>
​
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property><name>dfs.journalnode.edits.dir</name><value>/export/data/journaldata</value>
</property>
​
<!-- 开启NameNode失败自动切换 -->
<property><name>dfs.ha.automatic-failover.enabled</name><value>true</value>
</property>
​
<!-- 指定该集群出故障时,哪个实现类负责执行故障切换 -->
<property><name>dfs.client.failover.proxy.provider.cluster1</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
​
<!-- 配置隔离机制方法-->
<property><name>dfs.ha.fencing.methods</name><value>sshfence</value>
</property>
​
<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_rsa</value>
</property>
​
<!-- 配置sshfence隔离机制超时时间 -->
<property><name>dfs.ha.fencing.ssh.connect-timeout</name><value>30000</value>
</property>
</configuration>
​
修改yarn-site.xml

友情提醒: 将之前 configuration 里面的内容全部替换掉

<configuration>
<!-- 开启RM高可用 -->
<property><name>yarn.resourcemanager.ha.enabled</name><value>true</value>
</property>
<!-- 指定RM的cluster id -->
<property><name>yarn.resourcemanager.cluster-id</name><value>yrc</value>
</property>
<!-- 指定RM的名字 -->
<property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value>
</property>
<!-- 分别指定RM的地址 -->
<property><name>yarn.resourcemanager.hostname.rm1</name><value>node1</value>
</property>
<property><name>yarn.resourcemanager.hostname.rm2</name><value>node2</value>
</property>
<!-- 指定zk集群地址 -->
<property><name>yarn.resourcemanager.zk-address</name><value>node1:2181,node2:2181,node3:2181</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
</configuration>
​
拷贝给node2
[root@node1 ~]# scp -r /export/server/hadoop-3.3.0/ node2:/export/server/
拷贝给node3
[root@node1 ~]# scp -r /export/server/hadoop-3.3.0/ node3:/export/server/

4.启动高可用服务

注意:一定要按照以下的顺序进行启动

启动Zookeeper服务

三台机器都启动

zkServer.sh start
启动journalnode服务

三台机器都要启动

hadoop-daemon.sh start journalnode

cd /export/data : 进入目录查看journaldata目录是否生成

初始化 namenode

先在node1上执行初始化

[root@node1 data]# hdfs namenode -format
​
# 查看ha-hadoop目录是否生成
[root@node1 data]# ls
ha-hadoop  journaldata

将初始化生成的目录,复制到 node2 下

[root@node1 data]# scp -r /export/data/ha-hadoop/ node2:/export/data/
格式化zkfc服务

注意: 要在 node1 上进行启动

[root@node1 data]# hdfs zkfc -formatZK
启动hadoop服务

注意: 要在node1 上进行启动

DFSZKFailoverController服务真正是hadoop启动起来的

[root@node1 data]# start-all.sh
查看所有服务
jps

5.web页面查看

hdfs服务: 192.168.88.161:50070         192.168.88.162:50070
yarn服务: 192.168.88.161:8088         192.168.88.162:8088
-- 关闭主hdfs 观察备用是否切换.
hdfs --daemon stop namenode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/58745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是 OpenTelemetry?

OpenTelemetry 定义 OpenTelemetry (OTel) 是一个开源可观测性框架&#xff0c;允许开发团队以单一、统一的格式生成、处理和传输遥测数据&#xff08;telemetry data&#xff09;。它由云原生计算基金会 (CNCF) 开发&#xff0c;旨在提供标准化协议和工具&#xff0c;用于收集…

ESP32 gptimer通用定时器初始化报错:assert failed: timer_ll_set_clock_prescale

背景&#xff1a;IDF版本V5.1.2 &#xff0c;配置ESP32 通用定时器&#xff0c;实现100HZ&#xff0c;占空比50% 的PWM波形。 根据乐鑫官方的IDF指导文档设置内部计数器的分辨率&#xff0c;计数器每滴答一次相当于 1 / resolution_hz 秒。 &#xff08;ESP-IDF编程指导文档&a…

AIGC在游戏设计中的应用及影响

文章目录 一、AIGC的基本概念与背景AIGC的主要应用领域AIGC技术背景 二、AIGC在游戏设计中的应用1. 自动化游戏地图与关卡设计示例&#xff1a;自动生成2D平台游戏关卡 2. 角色与物品生成示例&#xff1a;使用GAN生成虚拟角色 3. 游戏剧情与任务文本生成示例&#xff1a;基于GP…

【NOIP普及组】统计单词数

【NOIP普及组】统计单词数 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 一般的文本编辑器都有查找单词的功能&#xff0c;该功能可以快速定位特定单词在文章中的位置&#xff0c;有的还能统计出特定单词在文章中出现的次数。 现在&#x…

Spring Security(5.x, 6.x ) RBAC访问控制

在 Spring Security 中&#xff0c;基于不同版本实现 RBAC&#xff08;基于角色的访问控制&#xff09;功能有一些不同的方式。RBAC 的基本原理是&#xff1a;定义用户、角色和权限的关系&#xff0c;并控制不同用户对资源的访问。 Spring Security 不同版本的实现主要在配置方…

Unity 如何优雅的限定文本长度, 包含对特殊字符,汉字,数字的处理。实际的案例包括 用户昵称

常规限定文本长度 ( 通过 UntiyEngine.UI.Inputfiled 附带的长度限定 ) 痛点1 无法对中文&#xff0c;数字&#xff0c;英文进行识别&#xff0c;同样数量的汉字和同样数量的英文像素长度是不一样的&#xff0c;当我们限定固定长度后&#xff0c;在界面上的排版不够美观 痛点2…

多个服务器共享同一个Redis Cluster集群,并且可以使用Redisson分布式锁

Redisson 是一个高级的 Redis 客户端&#xff0c;它支持多种分布式 Java 对象和服务。其中之一就是分布式锁&#xff08;RLock&#xff09;&#xff0c;它可以跨多个应用实例在多个服务器上使用同一个 Redis 集群&#xff0c;为这些实例提供锁服务。 当你在不同服务器上运行的…

jmeter常用配置元件介绍总结之函数助手

系列文章目录 1.windows、linux安装jmeter及设置中文显示 2.jmeter常用配置元件介绍总结之安装插件 3.jmeter常用配置元件介绍总结之取样器 jmeter常用配置元件介绍总结之函数助手 1.进入函数助手对话框2.常用函数的使用介绍2.1.RandomFromMultipleVars函数2.2.Random函数2.3.R…

发现了NitroShare的一个bug

NitroShare 是一个跨平台的局域网开源网络文件传输应用程序&#xff0c;它利用广播发现机制在本地网络中找到其他安装了 NitroShare 的设备&#xff0c;从而实现这些设备之间的文件和文件夹发送。 NitroShare 支持 Windows、macOS 和 Linux 操作系统。 NitroShare允许我们为…

【 ElementUI 组件Steps 步骤条使用新手详细教程】

本文介绍如何使用 ElementUI 组件库中的步骤条组件完成分步表单设计。 效果图&#xff1a; 基础用法​ 简单的步骤条。 设置 active 属性&#xff0c;接受一个 Number&#xff0c;表明步骤的 index&#xff0c;从 0 开始。 需要定宽的步骤条时&#xff0c;设置 space 属性即…

互联网技术净土?原生鸿蒙开启全新技术征程

鸿蒙生态与开发者的崭新机会 HarmonyOS NEXT承载着华为对未来操作系统的深刻理解&#xff0c;如今已发展为坚实的数字底座。它不仅在技术层面取得了全面突破&#xff0c;还在中国操作系统市场中站稳了脚跟。 当前&#xff0c;HarmonyOS NEXT的代码行数已超过1.1亿&#xff0c…

[linux驱动开发--API框架]--platform、gpio、pinctrl

1. 结构体定义和实例化 // 这个结构体样式并不固定&#xff0c;按需增减成员&#xff0c;可以参考内核的其他驱动代码 struct leddev_dev{dev_t devid; /* 设备号*/struct cdev cdev; /* cdev*/struct class *class; /* 类*/struct device *d…

从书本到代码:人工智能如何改变教育游戏规则?

内容概要 随着时代的发展&#xff0c;人工智能在教育领域展现出前所未有的潜力&#xff0c;成为推动教育改革的重要力量。它不仅仅是一种技术工具&#xff0c;更是一种变革的催化剂&#xff0c;促使传统教育模式必须进行自我反思和更新。通过利用智能算法&#xff0c;教育者可…

发布一个npm组件库包

Webpack 配置 (webpack.config.js) const path require(path); const MiniCssExtractPlugin require(mini-css-extract-plugin); const CssMinimizerPlugin require(css-minimizer-webpack-plugin); const TerserPlugin require(terser-webpack-plugin);module.exports {…

C#语言:现代软件开发的核心工具

在当今快速发展的软件行业&#xff0c;C#&#xff08;发音为“C sharp”&#xff09;已成为开发人员广泛采用的一种编程语言。它由微软公司开发&#xff0c;旨在提供强大的功能、简洁的语法和广泛的适用性。自2000年首次发布以来&#xff0c;C#已成为构建各种类型应用程序的理想…

若Git子模块的远端地址发生了变化本地应该怎么调整

文章目录 前言git submodule 相关命令解决方案怎么保存子模块的版本呢总结 前言 这个问题复杂在既有Git又有子模块&#xff0c;本身Git的门槛就稍微高一点&#xff0c;再加上子模块的运用&#xff0c;一旦出现这种远端地址发生修改的情况会让人有些懵&#xff0c;不知道怎么处…

长视频为什么在广告市场上节节败退?

作者&#xff1a;刀客doc 在广告市场&#xff0c;长视频网站的吸引力在减小&#xff0c;这是不争的事实。不过最近我发现&#xff0c;这一趋势还在加剧。 近期&#xff0c;一份QuestMobile的数据预测了互联网各类媒介的市场份额。其中5年来&#xff0c;在线视频广告的份额年年…

Kubernetes-编排工具篇-01-Kustomize与Helm对比

Kustomize与Helm对比 0、前言 K8s 是一个开源容器编排平台&#xff0c;可自动执行容器化应用程序的部署、扩展和管理。近年来&#xff0c;K8s 已成为采用云原生架构和容器化技术的组织的标准。 但是由于K8s的复杂性&#xff0c;所以很多公司以及开源组织都在开发相关的工具来…

量子电路的实现 基于ibm的qiskit

量子计算的物理实现 量子计算的实现有几种方式&#xff0c;最常用的就是超导量子计算机&#xff0c;它的量子处理器是用超导传输量子比特构建的&#xff0c;它是由一个约瑟夫森结和一个并联的电容器组成的电路。约瑟夫森结是一种非线性电感&#xff0c;由两层重叠的超导…

【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用

创建个性化的GPTs应用是一个涉及技术、设计和用户体验的过程。以下是详细步骤&#xff1a; ###1.确定应用目标和用户群体 在开始之前&#xff0c;你需要明确你的应用的目标和目标用户。这将帮助你在设计、开发和个性化方面做出相应的决策。例如&#xff0c;如果你的应用是为了…