Spark SQL----Hive表

一、指定Hive表的存储格式
二、与不同版本的Hive Metastore交互

Spark SQL还支持读取和写入存储在Apache Hive中的数据。然而，由于Hive有大量的依赖项，这些依赖项不包括在默认的Spark发布版中。如果在类路径上可以找到Hive依赖项，Spark将自动加载它们。请注意，这些Hive依赖项也必须存在于所有工作节点上，因为它们需要访问Hive序列化和反序列化库（SerDes）才能访问存储在Hive中的数据。
Hive的配置是通过将hive-site.xml, core-site.xml（用于安全配置）和hdfs-site.xml（用于HDFS配置）文件放在conf/中来完成的。
使用Hive时，必须实例化具有Hive支持的SparkSession，包括到持久Hive metastore的连接、对Hive serdes的支持以及Hive用户定义的函数（UDF）。没有现成Hive部署的用户仍然可以启用Hive支持。当hive-site.xml未配置时，上下文会自动在当前目录中创建metastore_db，并创建由spark.sql.warehouse.dir配置的目录，默认为spark应用程序启动的当前目录中的目录spark-warehouse。请注意，自Spark 2.0.0以来，hive-site.xml中的hive.metastore.warehouse.dir属性已被弃用。相反，使用spark.sql.warehouse.dir来指定数据库在仓库中的默认位置。你可能需要将写入权限授予启动Spark应用程序的用户。

from os.path import abspathfrom pyspark.sql import SparkSession
from pyspark.sql import Row# warehouse_location points to the default location for managed databases and tables
warehouse_location = abspath('spark-warehouse')spark = SparkSession \.builder \.appName("Python Spark SQL Hive integration example") \.config("spark.sql.warehouse.dir", warehouse_location) \.enableHiveSupport() \.getOrCreate()# spark is an existing SparkSession
spark.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
spark.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")# Queries are expressed in HiveQL
spark.sql("SELECT * FROM src").show()
# +---+-------+
# |key|  value|
# +---+-------+
# |238|val_238|
# | 86| val_86|
# |311|val_311|
# ...# Aggregation queries are also supported.
spark.sql("SELECT COUNT(*) FROM src").show()
# +--------+
# |count(1)|
# +--------+
# |    500 |
# +--------+# The results of SQL queries are themselves DataFrames and support all normal functions.
sqlDF = spark.sql("SELECT key, value FROM src WHERE key < 10 ORDER BY key")# The items in DataFrames are of type Row, which allows you to access each column by ordinal.
stringsDS = sqlDF.rdd.map(lambda row: "Key: %d, Value: %s" % (row.key, row.value))
for record in stringsDS.collect():print(record)
# Key: 0, Value: val_0
# Key: 0, Value: val_0
# Key: 0, Value: val_0
# ...# You can also use DataFrames to create temporary views within a SparkSession.
Record = Row("key", "value")
recordsDF = spark.createDataFrame([Record(i, "val_" + str(i)) for i in range(1, 101)])
recordsDF.createOrReplaceTempView("records")# Queries can then join DataFrame data with data stored in Hive.
spark.sql("SELECT * FROM records r JOIN src s ON r.key = s.key").show()
# +---+------+---+------+
# |key| value|key| value|
# +---+------+---+------+
# |  2| val_2|  2| val_2|
# |  4| val_4|  4| val_4|
# |  5| val_5|  5| val_5|
# ...

在Spark repo中的“examples/src/main/python/sql/hive.py”中找到完整的示例代码。

一、指定Hive表的存储格式

创建Hive表时，需要定义该表应如何从文件系统读取数据/向文件系统写入数据，即“输入格式”和“输出格式”。你还需要定义此表应如何将数据反序列化为行，或将行序列化为数据，即“serde”。以下选项可用于指定存储格式（“serde”、“input format”、“output format”），例如CREATE TABLE src(id int) USING hive OPTIONS(fileFormat ‘parquet’)。默认情况下，我们将以纯文本形式读取表文件。请注意，创建表时还不支持Hive存储处理程序，你可以使用Hive端的存储处理程序创建表，并使用Spark SQL读取它。

Property Name	Meaning
fileFormat	fileFormat是一种存储格式规范包，包括“serde”、“input format”和“output format”。目前我们支持6种文件格式:‘sequencefile’， ‘rcfile’， ‘orc’， ‘parquet’， ‘textfile’和’avro’。
inputFormat, outputFormat	这两个选项以字符串文字的形式指定相应的InputFormat和OutputFormat类的名称，例如org.apache.hadoop.hive.ql.io.orc.OrcInputFormat。这两个选项必须成对出现，如果已经指定了fileFormat选项，则不能指定它们。
serde	此选项指定serde类的名称。当指定fileFormat选项时，如果给定的fileFormat已经包含了serde的信息，则不要指定该选项。目前“sequencefile”，“textfile”和“rcfile”不包括serde信息，你可以在这3种文件格式中使用这个选项。
fieldDelim, escapeDelim, collectionDelim, mapkeyDelim, lineDelim	这些选项只能与"textfile" fileFormat一起使用。它们定义了如何将分隔的文件读入行。

所有其他用OPTIONS定义的属性将被视为Hive serde属性。

二、与不同版本的Hive Metastore交互

Spark SQL的Hive支持中最重要的部分之一是与Hive metastore的交互，它使Spark SQL能够访问Hive表的元数据。从Spark 1.4.0开始，使用下面描述的配置，可以使用Spark SQL的单个二进制构建来查询不同版本的Hive metastores。请注意，与用于与metastore对话的Hive版本无关，Spark SQL内部将根据内置Hive进行编译，并使用这些类进行内部执行（serdes、UDFs、UDAFs等）。
以下选项可用于配置用于检索元数据的Hive版本：

Property Name	Default	Meaning	Since Version
spark.sql.hive.metastore.version	2.3.9	Hive metastore的版本。可用的选项是0.12.0到2.3.9和3.0.0到3.1.3。	1.4.0
spark.sql.hive.metastore.jars	builtin	应该用于实例化HiveMetastoreClient的jar的位置。此属性可以是以下四个选项之一: 1. builtin: 使用Hive 2.3.9，当启用-Phive时，它与Spark程序集捆绑在一起。选择此选项时，spark.sql.hive.metastore.version必须为2.3.9或未定义。 2. maven: 使用从Maven存储库下载的指定版本的Hive jar。通常不建议将此配置用于生产部署。 3. path:使用spark.sql.hive.metastore.jars.path配置的Hive jar，格式以逗号分隔。支持本地或远程路径。所提供的jar应该与spark.sql.hive.metastore.version版本相同。 4. JVM标准格式的类路径。这个类路径必须包含所有Hive及其依赖，包括Hadoop的正确版本。所提供的jar应该与spark.sql.hive.metastore.version版本相同。这些jar只需要存在于driver中，但如果你在yarn集群模式下运行，则必须确保它们与应用程序打包在一起。	1.4.0
spark.sql.hive.metastore.jars.path	(empty)	用于实例化HiveMetastoreClient的jar的逗号分隔路径。只有当spark.sql.hive.metastore.jars被设置为path时，这个配置才有用。路径可以是以下任意格式: 1. file://path/to/jar/foo.jar 2. hdfs://nameservice/path/to/jar/foo.jar 3. /path/to/jar/(没有URI scheme的路径遵循conf fs.defaultFS的URI schema) 4. [http/https/ftp]: //path/to/jar/foo.jar 注意，1、2和3支持通配符。例如: 1. file://path/to/jar/,file://path2/to/jar//.jar 2. hdfs://nameservice/path/to/jar/,hdfs://nameservice2/path/to/jar//.jar	3.1.0
spark.sql.hive.metastore.sharedPrefixes	com.mysql.jdbc, org.postgresql, com.microsoft.sqlserver, oracle.jdbc	一个逗号分隔的类前缀列表，应该使用Spark SQL和特定版本的Hive之间共享的类加载器加载。应该共享的类的一个示例是与metastore通信所需的JDBC驱动程序。其他需要共享的类是那些与已经共享的类交互的类。例如，log4j使用的自定义appender。	1.4.0
spark.sql.hive.metastore.barrierPrefixes	(empty)	以逗号分隔的类前缀列表，应为Spark SQL正在通信的每个版本的Hive显式重新加载这些前缀。例如，在通常会共享的前缀中声明的Hive UDF（例如，org.apache.spark.*）。	1.4.0