11、Hive+Spark数仓环境准备

1、 Hive安装部署

1）把hive-3.1.3.tar.gz上传到linux的/opt/software目录下

2）解压hive-3.1.3.tar.gz到/opt/module/目录下面

[shuidi@hadoop102 module]$ tar -zxvf /opt/software/hive-3.1.3.tar.gz -C /opt/module/

3）修改hive-3.1.3-bin.tar.gz的名称为hive

[shuidi@hadoop102 module]$ mv /opt/module/apache-hive-3.1.3-bin/ /opt/module/hive

4）修改/etc/profile.d/my_env.sh，添加环境变量

[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh

添加内容

#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

重启Xshell对话框或者source一下 /etc/profile.d/my_env.sh文件，使环境变量生效。

[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh

5）解决日志Jar包冲突，进入/opt/module/hive/lib目录

[shuidi@hadoop102 module]$ cd /opt/module/hive/lib
[shuidi@hadoop102 lib]$ mv log4j-slf4j-impl-2.17.1.jar log4j-slf4j-impl-2.17.1.jar.bak

6) 修改Hive的log存放日志到/opt/module/hive/logs

修改$HIVE_HOME/conf/hive-log4j2.properties.template文件名称为 hive-log4j2.properties
[shuidi@hadoop102 ~]$ mv /opt/module/hive/conf/hive-log4j2.properties.template /opt/module/hive/conf/hive-log4j2.properties
修改配置如下
property.hive.log.dir=/opt/module/hive/logs

2 、Hive元数据配置到MySQL

2.1、拷贝驱动

将MySQL的JDBC驱动 mysql-connector-j-8.0.31.jar 上传到Hive的lib目录下 /opt/module/hive/lib/。

2.2、配置Metastore到MySQL

在$HIVE_HOME/conf目录下新建hive-site.xml文件。

[shuidi@hadoop102 conf]$ vim hive-site.xml

添加如下内容。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><!--配置Hive保存元数据信息所需的 MySQL URL地址--><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8&amp;allowPublicKeyRetrieval=true</value></property><!--配置Hive连接MySQL的驱动全类名--><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value></property><!--配置Hive连接MySQL的用户名 --><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value></property><!--配置Hive连接MySQL的密码 --><property><name>javax.jdo.option.ConnectionPassword</name><value>Zan@#2024</value></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.schema.verification</name><value>false</value></property><property><name>hive.server2.thrift.port</name><value>10000</value></property><property><name>hive.server2.thrift.bind.host</name><value>hadoop102</value></property><property><name>hive.metastore.event.db.notification.api.auth</name><value>false</value></property><property><name>hive.cli.print.header</name><value>true</value></property><property><name>hive.cli.print.current.db</name><value>true</value></property>
</configuration>

3、启动Hive

3.1、初始化元数据库

1）登陆MySQL

[shuidi@hadoop102 conf]$ mysql -uroot -p

2）新建Hive元数据库

mysql> create database metastore;

3）初始化Hive元数据库

[atguigu@hadoop102 conf]$ schematool -initSchema -dbType mysql -verbose

4）修改元数据库字符集

Hive元数据库的字符集默认为Latin1，由于其不支持中文字符，所以建表语句中如果包含中文注释，会出现乱码现象。如需解决乱码问题，须做以下修改。

修改Hive元数据库中存储注释的字段的字符集为utf-8。

（1）字段注释

mysql> use metastore;
mysql> alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;

（2）表注释

mysql> alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;

5）退出mysql

mysql> quit;

3.2、启动Hive客户端

1）启动Hive客户端

[shuidi@hadoop102 hive]$ hive

2）查看一下数据库

hive (default)> show databases;
OK
database_name
default
Time taken: 0.905 seconds, Fetched: 1 row(s)
hive (default)>

4、Hive环境搭建

1）Hive引擎简介

Hive引擎包括：默认MR、Tez、Spark。

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。

2）Hive on Spark配置

（1）兼容性说明

注意：官网下载的Hive3.1.3和Spark3.3.1默认是不兼容的。因为Hive3.1.3支持的Spark版本是2.3.0，所以需要我们重新编译Hive3.1.3版本。

编译步骤：官网下载Hive3.1.3源码，修改pom文件中引用的Spark版本为3.3.1，如果编译通过，直接打包获取jar包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取jar包。

（2）在Hive所在节点部署Spark纯净版

①Spark官网下载jar包地址：

Downloads | Apache Spark

②上传并解压解压spark-3.3.1-bin-without-hadoop.tgz

[shuidi@hadoop102 module]$ tar -zxvf /opt/software/spark-3.3.1-bin-without-hadoop.tgz -C /opt/module/
[shuidi@hadoop102 module]$ mv /opt/module/spark-3.3.1-bin-without-hadoop /opt/module/spark

③修改spark-env.sh配置文件

修改文件名。

[shuidi@hadoop102 module]$ mv /opt/module/spark/conf/spark-env.sh.template /opt/module/spark/conf/spark-env.sh

编辑文件

[shuidi@hadoop102 module]$ vim /opt/module/spark/conf/spark-env.sh

增加如下内容。

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

（3）配置SPARK_HOME环境变量

[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容。

# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 使其生效。

[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh

（4）在hive中创建spark配置文件

[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容（在执行任务时，会根据如下参数执行）。

spark.master                             yarn
spark.eventLog.enabled                   true
spark.eventLog.dir                       hdfs://hadoop102:8020/spark-history
spark.executor.memory                    1g
spark.driver.memory                     1g

在HDFS创建如下路径，用于存储历史日志。

[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-history

（5）向HDFS上传Spark纯净版jar包

说明1：采用Spark纯净版jar包，不包含hadoop和hive相关依赖，能避免依赖冲突。

说明2：Hive任务最终由Spark来执行，Spark任务资源分配由Yarn来调度，该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径，这样集群中任何一个节点都能获取到。

[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-jars[shuidi@hadoop102 module]$ hadoop fs -put /opt/module/spark/jars/* /spark-jars

（6）修改hive-site.xml文件

[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/hive-site.xml

添加如下内容。

<!--Spark依赖位置（注意：端口号8020必须和namenode的端口号一致）-->
<property><name>spark.yarn.jars</name><value>hdfs://hadoop102:8020/spark-jars/*</value>
</property><!--Hive执行引擎-->
<property><name>hive.execution.engine</name><value>spark</value>
</property>

3）Hive on Spark测试

（1）启动hive客户端

[shuidi@hadoop102 module]$  hive

（2）创建一张测试表

hive (default)> create table student(id int, name string);
OK
Time taken: 1.368 seconds

（3）通过insert测试效果

hive (default)> insert into table student values(1,'abc');

若结果如下，则说明配置成功。

5、Yarn环境配置

1）增加ApplicationMaster资源比例

容量调度器对每个资源队列中同时运行的Application Master占用的资源进行了限制，该限制通过yarn.scheduler.capacity.maximum-am-resource-percent参数实现，其默认值是0.1，表示每个资源队列上Application Master最多可使用的资源为该队列总资源的10%，目的是防止大部分资源都被Application Master占用，而导致Map/Reduce Task无法执行。

生产环境该参数可使用默认值。但学习环境，集群资源总数很少，如果只分配10%的资源给Application Master，则可能出现，同一时刻只能运行一个Job的情况，因为一个Application Master使用的资源就可能已经达到10%的上限了。故此处可将该值适当调大。

（1）在hadoop102的/opt/module/hadoop/etc/hadoop/capacity-scheduler.xml文件中修改如下参数值

[shuidi@hadoop102 module]$ vim /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml<property><name>yarn.scheduler.capacity.maximum-am-resource-percent</name><value>0.8</value>
</property

（2）分发capacity-scheduler.xml配置文件

[shuidi@hadoop102 module]$ xsync /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml

（3）关闭正在运行的任务，hadoop103重新启动yarn集群

[shuidi@hadoop103 ~]$ stop-yarn.sh
[shuidi@hadoop103 ~]$ start-yarn.sh

6、数据仓库开发环境

数仓开发工具可选用DBeaver或者DataGrip。两者都需要用到JDBC协议连接到Hive，故需要启动HiveServer2。

1）启动HiveServer2

[shuidi@hadoop102 module]$ hiveserver2

后台启动命令

nohup hive --service hiveserver2 2>&1 &

2）配置DataGrip连接

（1）创建连接

（2）配置连接属性

所有属性配置，和Hive的beeline客户端配置一致即可。初次使用，配置过程会提示缺少JDBC驱动，按照提示下载即可。

3）测试使用

创建数据库gmall，并观察是否创建成功。

（1）创建数据库

（2）查看数据库

（3）修改连接，指明连接数据库

（4）选择当前数据库为gmall

7、Hive 常见问题及解决方式

1）DataGrip 中注释乱码问题

注释属于元数据的一部分，同样存储在mysql的metastore库中，如果metastore库的字符集不支持中文，就会导致中文显示乱码。

不建议修改Hive元数据库的编码，此处我们在metastore中找存储注释的表，找到表中存储注释的字段，只改对应表对应字段的编码。

如下两步修改，缺一不可。

（1）修改mysql元数据库

我们用到的注释有两种：字段注释和整张表的注释。

COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释，TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。我们可以通过命令修改字段编码，也可以用 DataGrip 或 Navicat 等工具修改，此处仅对 Navicat 进行展示。

①命令修改

采集部分已介绍。

alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;

②使用工具

以COLUMNS_V2表中COMMENT字段的修改为例。

（a）右键点击表名，选择设计表

（b）在右侧页面中选中表的字段

（c）在页面下方下拉列表中将字符集改为 utf8

修改字符集之后，已存在的中文注释能否正确显示？不能。为何？

数据库中的字符都是通过编码存储的，写入时编码，读取时解码。修改字段编码并不会改变此前数据的编码方式，依然为默认的 latin1，此时读取之前的中文注释会用 utf8 解码，编解码方式不一致，依然乱码。

（2）url连接的编码指定为UTF-8

修改 hive-site.xml，在javax.jdo.option.ConnectionURL的value末尾添加以下内容。

&useUnicode=true&characterEncoding=UTF-8

这一步在采集部分已完成。

xml文件中&符是有特殊含义的，我们必须使用转义的方式&对&进行替换，如下。

<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=true
</value>
</property>

只要修改了hive-site.xml，就必须重启hiveserver2。

2）DataGrip 刷新连接时 hiveserver2 后台报错

关键信息如下。

FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
3986 [44f450f2-fc83-42fb-8c99-f4bc4617d6c2 HiveServer2-Handler-Pool: Thread-87] ERROR org.apache.hadoop.hive.ql.Driver  - FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
org.apache.hadoop.hive.ql.parse.ParseException: line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement

原因：早期版本的 Hive 有索引功能，当前版本已移除， DataGrip 刷新连接时会扫描索引，而 Hive 没有，就会报错。

上述问题是DataGrip导致的，并非Hive环境的问题，不影响使用。

3）OOM报错

Hive默认堆内存只有256M，如果hiveserver2后台频繁出现OutOfMemoryError，可以调大堆内存。

在Hive家目录的conf目录下复制一份模板文件hive-env.sh.template。

[shuidi@hadoop102 ~]$ cd $HIVE_HOME/conf
[shuidi@hadoop102 conf]$ cp hive-env.sh.template hive-env.sh

修改 hive-env.sh，将 Hive 堆内存改为 4096M，如下。

export HADOOP_HEAPSIZE=4096

可根据实际使用情况适当调整堆内存。

4）DataGrip ODS层部分表字段显示异常

建表字段中有如下语句的表字段无法显示。

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'

上述语句指定了Hive表的序列化器和反序列化器SERDE（serialization 和 deserialization的合并缩写），用于解析 JSON 格式的文件。上述 SERDE 是由第三方提供的，在hive-site.xml中添加如下配置即可解决。

<property><name>metastore.storage.schema.reader.impl</name><value>org.apache.hadoop.hive.metastore.SerDeStorageSchemaReader</value>
</property>

8、模拟数据准备

通常企业在开始搭建数仓时，业务系统中会存在历史数据，一般是业务数据库存在历史数据，而用户行为日志无历史数据。假定数仓上线的日期为2022-06-08，为模拟真实场景，需准备以下数据。

注：在执行以下操作之前，先将HDFS上/origin_data路径下之前的数据删除。

1）启动采集通道

命令如下。

[shuidi@hadoop102 ~]$ cluster.sh start

停止Maxwell。

[shuidi@hadoop102 bin]$ mxw.sh stop
停止Maxwell

2）数据准备

（1）生成模拟数据

① 修改hadoop102节点的/opt/module/applog/application.yml文件，将mock.date，mock.clear，mock.clear.user，mock.new.user，mock.log.db.enable五个参数调整为如下的值。

#业务日期
mock.date: "2022-06-04"
#是否重置业务数据
mock.clear.busi: 1
#是否重置用户数据
mock.clear.user: 1
# 批量生成新用户数量
mock.new.user: 100
# 日志是否写入数据库一份  写入z_log表中
mock.log.db.enable: 0

② 执行数据生成脚本，生成第一天2022-06-04的历史数据。

[shuidi@hadoop102 ~]$ lg.sh

③ 修改/opt/module/applog/application.properties文件，将mock.date、mock.clear，mock.clear.user，mock.new.user四个参数调整为如图所示的值。

#业务日期
mock.date: "2022-06-05"
#是否重置业务数据
mock.clear.busi: 0
#是否重置用户数据
mock.clear.user: 0
# 批量生成新用户
mock.new.user: 0

④ 执行数据生成脚本，生成第二天2022-06-05的历史数据。

[shuidi@hadoop102 ~]$ lg.sh

⑤ 之后只修改/opt/module/applog/application.properties文件中的mock.date参数，依次改为2022-06-06，2022-06-07，并分别生成对应日期的数据。

⑥ 删除/origin_data/gmall/log目录，将⑤中提到的参数修改为2022-06-08，并生成当日模拟数据。

（2）全量表同步

① 执行全量表同步脚本

[shuidi@hadoop102 ~]$ mysql_to_hdfs_full.sh all 2022-06-08

② 观察HDFS上是否出现全量表数据

（3）增量表首日全量同步

① 清除Maxwell断点记录

由于Maxwell支持断点续传，而上述重新生成业务数据的过程，会产生大量的binlog操作日志，这些日志我们并不需要。故此处需清除Maxwell的断点记录，令其从binlog最新的位置开始采集。

清空Maxwell数据库，相当于初始化Maxwell。

mysql> 
drop table maxwell.bootstrap;
drop table maxwell.columns;
drop table maxwell.databases;
drop table maxwell.heartbeats;
drop table maxwell.positions;
drop table maxwell.schemas;
drop table maxwell.tables;

② 修改Maxwell配置文件中的mock_date参数

[shuidi@hadoop102 maxwell]$ vim /opt/module/maxwell/config.propertiesmock_date=2022-06-08

③ 启动Maxwell

[shuidi@hadoop102 ~]$ mxw.sh start

④ 执行增量表首日全量同步脚本

[shuidi@hadoop102 ~]$  mysql_to_kafka_inc_init.sh all

⑤ 观察HDFS上是否出现增量表数据