数据加载与保存

通用方式‌

SparkSQL提供了通用的数据加载方式，使用spark.read.loa方法，并可通过format指定数据类型（如csv、jdbc、json、orc、parquet、textFile）。

load方法后需传入数据路径（针对csv、jdbc、json、orc、parquet、textFile格式）。

option方法用于设置特定格式的参数，如jdbc的url、user、password、dbtable。

特定格式加载‌

Parquet‌：Spark SQL的默认数据源，无需指定format即可载。

JSON‌：Spark SQL能自动推测JSON数据集结构，使用spark.read.json(path)加载。注意，每行应为一个JSON串。

val path = "/opt/module/spark-local/people.json"

val peopleDF = spark.read.json(path)

查询数据：可以通过SQL语句查询JSON数据。

val resDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19"

CSV‌：需指定format为csv，并可通过option设置分隔符、是否推断schema、是否包含表头等信息。

MySQL‌：通过JDBC从关系型数据库读取数据，使用spark.read.format("jdbc").option(...)方式，并传入数据库连接信息。

数据保存

通用方式‌

使用df.write.save方法保存数据，同样可通过format指定数据类型。

save方法后需传入保存路径（针对csv、orc、parquet、textFile格式）。

option方法用于设置特定格式的参数。

保存操作可使用SaveMode来指明如何处理数据，如覆盖（overwrite）、追加（append）等，通过mode方法设置。

特定格式保存‌

与加载类似，Parquet、JSON、CSV等格式均可通过指定format进行保存。

MySQL等关系型数据库的写入也通过JDBC实现，需指定format为jdbc，并传入数据库连接信息及表名。

注意事项

在处理JSON数据时，需确保文件格式符合Spark的要求，即每行一个JSON串。

在读取CSV文件时，可通过设置option来指定分隔符、是否推断schema等信息，以便正确解析文件内容。

在通过JDBC连接数据库时，需确保数据库驱动已正确导入，并正确配置数据库连接信息。

在保存数据时，需根据实际需求选择合适的SaveMode，以避免数据覆盖或丢失。

Spark SQL与Hive的集成

Spark SQL可以编译时包含Hive支持，从而提供对Hive表访问、UDF（用户自定义函数）、Hive查询语言（HQL）等特性的支持。在使用时，无需事先安装Hive，但最好在编译Spark SQL时引入Hive支持。

IDEA通过JDBC对MySQL进行操作：

读取数据

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQL")

val spark:SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._

//通用的load方式读取

spark.read.format("jdbc")

.option("url","jdbc:mysql://localhost:3306/system")

.option("driver","com.mysql.jdbc.Driver")//com.mysql.cj.jdbc.Driver

.option("user","root")

.option("password","123456")

.option("dbtable","user")

.load().show()

spark.stop()

//通用的load方法的另一种形式

spark.read.format("jdbc")

.options(

Map("url"->"jdbc:mysql://localhost:3306/system?user=root&password=123456","dbtable"->"user","driver"->"com.mysql.jdbc.Driver"))

.load().show()

//通过JDBC

val pros :Properties = new Properties()

pros.setProperty("user","root")

pros.setProperty("password","123456")

val df :DataFrame = spark.read.jdbc("jdbc:mysql://localhost:3306/system","user",pros)

df.show()

写入数据

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQL")

val spark:SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._

val rdd: RDD[Stu] = spark.sparkContext.makeRDD(List(Stu("lisi", 20),

Stu("zs", 30)))

val ds:Dataset[Stu] = rdd.toDS()

ds.write.format("jdbc")

.option("url","jdbc:mysql://localhost:3306/system")

.option("driver","com.mysql.jdbc.Driver")

.option("user","root")

.option("password","123456")

.option("dbtable","user2")

.mode(SaveMode.Append)

.save()

spark.stop()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/901775.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

数据加载与保存

相关文章

7 编译型语言、解释型语言与混合型语言的深度解析：以 C、Java、Python 为例

Edge浏览器安卓版流畅度与广告拦截功能评测【不卡还净】

智能云图库-12-DDD重构

量子安全邮件系统 —— 邮件回溯密钥销毁机制

个人博客系统后端 - 用户信息管理功能实现指南（上）

趣味编程之分布式系统：负载均衡的“雨露均沾“艺术

Linux——信号（1）信号的产生

LeetCode 2919 使数组变美的最小增量运算数

计算生物学在中国的发展情况？

Linux之文件内容显示（cat、grep、cut、sort、uniq、tr）

3DS 转 STL 全攻略：传统工具与迪威模型网在线转换深度解析

IoT FEM射频前端模组芯片（2.4G PA）三伍微电子GSR2401 兼容替代RFX2401

Missashe考研日记-day22

2025年最新Web安全(面试题)

Qt QML - qmldir使用方法详解

# Shell脚本参数设计规范（DeepSeek指导）

MQTT协议：IoT通信的轻量级选手

数据结构——反射、枚举以及lambda表达式

C语言教程（十）：C 语言函数详解

力扣面试150题--有效的字母异位词和字母异位词分组