kyuubi/spark3的catalog 多个数据源配置

在使用kyuubi 的时候，有多个集群，老集群上是hive2,新集群hive3 ,想通过一个网关访问多个集群，或者通过jdbc访问mysql，oracle的数据，这样不用来回数据导入导出。spark 支持跨库访问数据，在spark 中提供两种方式：1.建临时视图，通过临时视图访问外部库。2 建catalog ，通过多个catalog访问

1.建临时视图

2.建catalog

在 Spark 中配置两个 Hive Catalog（一个是 Hive 3，另一个是 Hive 2）是可能的，但需要一些额外的步骤。默认情况下，Spark 只支持一个 Catalog，但你可以通过以下步骤配置多个 Hive Catalog：

配置 Hive 3 Catalog：

首先，确保你的环境中已经正确配置了 Hive 3，并且可以通过 JDBC 连接到 Hive 3 的元数据存储。

在 spark-defaults.conf 中，配置连接到 Hive 3 的属性，如下所示：

# Hive 3 Catalog Configuration spark.sql.catalogImplementation hive spark.sql.catalog.hive3.url jdbc:hive2://hive3_host:10000/default spark.sql.catalog.hive3.user your_username

spark.sql.catalog.hive3.password your_password

配置 Hive 2 Catalog：

同样，确保你的环境中已经正确配置了 Hive 2，并且可以通过 JDBC 连接到 Hive 2 的元数据存储。

在 spark-defaults.conf 中，配置连接到 Hive 2 的属性，如下所示：

# Hive 2 Catalog Configuration

spark.sql.catalog.hive2.url jdbc:hive2://hive2_host:10000/default

spark.sql.catalog.hive2.user your_username

spark.sql.catalog.hive2.password your_password

运行 Spark 应用程序时选择 Catalog：

在你的 Spark 应用程序中，通过 SparkSession 的 catalog 方法选择要使用的 Catalog。例如：

val spark = SparkSession.builder() .appName("MyApp") .config("spark.sql.catalogImplementation", "hive") .getOrCreate() // 使用 Hive 3 Catalog spark.catalog("hive3").listTables().show() // 使用 Hive 2 Catalog spark.catalog("hive2").listTables().show()

通过这种方式，你可以在同一个 Spark 应用程序中使用不同的 Hive Catalog。确保在连接到每个 Catalog 时使用正确的用户名和密码，并将连接 URL 替换为你的实际 Hive 3 和 Hive 2 的连接信息。

catalog 配置https://blog.csdn.net/Yuan_CSDF/article/details/122419000