spark-SQL数据加载和保存

数据加载与保存

通用方式:

       通过 spark.read.load 和 df.write.save 实现数据加载与保存。可利用 format 指定数据格式,如 csv 、 jdbc 等; option 用于设置特定参数,像 jdbc 格式下的数据库连接信息; load 和 save 则分别指定数据路径。保存时还能使用 SaveMode 包含 ErrorIfExists 、 Append 、 Overwrite 、 Ignore 等模式 。

Parquet:

      作为默认数据源,Parquet是列式存储格式,适合存储嵌套数据。加载和保存数据时,若为Parquet文件,无需指定 format ,按默认方式操作即可。

JSON:

      Spark SQL可自动推测JSON数据集结构,加载为 Dataset[Row] 。但要求JSON文件每行是一个JSON串,通过 spark.read.json() 加载 。

CSV:

      读取CSV文件时,可配置列表信息,如设置分隔符、推断数据类型、指定表头,使用 format("csv") 结合 option 设置相关参数。

- MySQL:

     借助JDBC,Spark SQL能从MySQL读取数据创建 DataFrame ,计算后也可写回。操作前需导入 mysql-connector-java 依赖,按特定语法编写代码实现数据读写。

代码案例

导入依赖

 

 

 

 

Spark-SQL连接Hive

内嵌Hive:

使用Spark内嵌Hive无需额外配置,可直接使用,但实际生产中较少采用。

外部Hive:

在spark-shell中连接外部Hive,需将 hive-site.xml 拷贝到 conf/ 目录并修改连接地址,把MySQL驱动复制到 jars/ 目录,拷贝 core-site.xml 和 hdfs-site.xml 到 conf/ 目录,最后重启 spark-shell 。- Spark beeline:Spark Thrift Server兼容HiveServer2,部署后可用beeline访问。连接步骤与连接外部Hive类似,需配置相关文件并启动Thrift Server,再用 beeline -u jdbc:hive2://node01:10000 -n root 连接 。- Spark-SQL CLI:在Spark目录下,将MySQL驱动放入 jars/ , hive-site.xml 放入 conf/ ,运行 bin/ 目录下的 spark-sql.cmd 即可启动,能直接执行SQL语句。

代码操作Hive:

先导入 spark-hive_2.12 和 hive-exec依赖,将hive-site.xml拷贝到resources目录中,在代码中启用hive支持

代码案例

导入依赖

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/79183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法升级战报:亚马逊受众定向工具实测点击成本降37%

随着广告成本居高不下,精准投放成为卖家们绕不开的焦虑点。而最近一轮亚马逊DSP广告系统的算法升级,似乎正在给这场投放内卷带来新的转机。在这篇文章中,我们将基于实际测试数据,详细解析亚马逊受众定向工具的表现,并复…

大带宽服务器的优势

大带宽服务器最大的优势就在于可以显著提高数据传输的速度,这对于有着高流量应用和实时数据交换需求的企业来说,大带宽服务器中的带宽越大,所提供的数据传输速度就越快,同时网络的延迟度也会变低,所以大带宽服务器往往…

华为OD机试真题——阿里巴巴找黄金宝箱 IV(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式! 华为OD机试真题《阿里巴巴找黄金宝箱 IV》: 目录 题目名称&…

C++零基础实践教程

模块一:准备工作与第一个程序 (热身) 在正式编写代码之前,我们需要了解为什么要学习 C,并搭建好我们的开发环境。然后,我们将编写并运行第一个简单的 C 程序。 1. 为什么选择 C? 你可能听说过很多编程语言&#xff…

6 CMD 与 PowerShell 指令大全、C 程序终端运行、字符编码切换指南

1 CMD 与 PowerShell 常用指令 在命令行环境中高效运行程序,掌握终端的基本操作命令至关重要。无论是 Windows 系统下的 CMD(命令提示符)还是 PowerShell,它们都配备了一系列实用的命令,助力我们管理文件、执行程序以及…

Linux——共享内存

目录 一、共享内存概念 二、共享内存的一些函数 2.1 shmget 创建共享内存 2.2 shmat 访问共享内存 2.3 shmdt 解除共享内存的映射 2.4 shnctl 删除共享内存段 三、共享内存 3.1 创建测试进程 3.2 使用循环测试 ​编辑 3.3 共享内存写入程序 3.4 带有信号量的共享内…

数启新疆,智领未来!2025新疆数字经济发展战略研讨会在乌市启幕

2025年4月20日,由新疆维吾尔自治区数字经济联合会主办、中钧科技有限公司承办的"2025新疆数字经济发展战略研讨会"将在乌鲁木齐水磨沟区金正大厦三层会议中心隆重召开。 作为本年度新疆数字经济领域规格最高的行业盛会,会议将汇聚自治区14个厅…

Nginx:轻量级高性能的Web服务器与反向代理服务器

目录 一.引言 二.Nginx的核心特点 2.1高性能与高并发 2.2低资源消耗 2.3功能丰富 2.4高度扩展性 三.Nginx的应用场景 3.1静态资源服务器 3.2反向代理服务器 3.3API网关 3.4Nginx的配置与使用 四.总结 一.引言 在互联网高速发展的今天,Web服务器的性能与…

嵌入式Linux设备使用Go语言快速构建Web服务,实现设备参数配置管理方案探究

本文探讨,利用Go语言及gin框架在嵌入式Linux设备上高效搭建Web服务器,以实现设备参数的网页配置。通过gin框架,我们可以在几分钟内创建一个功能完善的管理界面,方便对诸如集中器,集线器等没有界面的嵌入式设备的管理。…

KALI搭建log4j2靶场及漏洞复现全流程

这里使用了两台KALI虚拟机,一台用于安装靶场环境,一台用于攻击 一、Docker的安装(靶机) 1、Linux内核版本查看 #安装docker要求内核版本kerner>3.10 #为此,先检查当前Linux系统的内核版本 uname -a 2、Linux apt…

学习笔记—C++—模板初阶

目录 模板初阶 泛型编程 函数模板 模版概念 函数模版格式 模版的原理 函数模板的实例化 模版参数的匹配规则 类模板 模板初阶 泛型编程 使用函数重载虽然可以实现,但是有一下几个不好的地方: 1. 重载的函数仅仅是类型不同,代码复…

Docker 中多个容器之间的通信

在 Docker 中,多个容器之间的通信可以通过以下几种主要方式实现,具体选择取决于网络需求、隔离性及管理复杂度: 一、自定义 Bridge 网络(推荐) 通过创建自定义的 Docker 网络,容器可以加入同一网络并通过容…

Day1-初次接触UFS

经过导师初次介绍,了解工作以芯片测试为主,需坚持学习,小白大致需3-6月入门。整体学习应分为3大块,UFS协议占40%(3-4h),C技能占40%(3-4h),工具或业务占20%(1-2h&#xff…

【LeetCode 热题100】二叉树构造题精讲:前序 + 中序建树 有序数组构造 BST(力扣105 / 108)(Go语言版)

🌱 二叉树构造题精讲:前序 中序建树 & 有序数组构造 BST 本文围绕二叉树的两类构造类题目展开解析: 从前序与中序遍历序列构造二叉树 将有序数组转换为二叉搜索树 我们将从「已知遍历构造树」和「平衡构造 BST」两个角度,拆…

JMeter重要的是什么

重要特性 支持多种协议: JMeter支持对多种协议进行性能测试,包括HTTP、HTTPS、FTP、JDBC(数据库)、LDAP、JMS、SOAP、REST等。这使得它能够适应各种不同的测试场景。强大的负载模拟能力: JMeter能够模拟大量的虚拟用户…

一文读懂WPF系列之MVVM

WPF MVVM 什么是MVVMWPF为何使用MVVM机制WPFMVVM 的实现手段 INotifyPropertyChanged​数据绑定的源端通知​​原理 PropertyChanged事件双向绑定的完整条件常见疑惑问题 什么是MVVM 翻译全称就是 model-view-viewmodel 3部分内容 以wpf的概念角度来解释就是 数据库数据源模型…

OCR API识别对比

OCR 识别DEMO OCR识别 demo 文档由来 最开始想使用百度开源的 paddlepaddle大模型 研究了几天,发现表格识别会跨行,手写识别的也不很准确。最终还是得使用现成提供的api。。 文档说明 三个体验下来 腾讯的识别度比较高,不论是手写还是识别表…

嵌入式MCU常用模块

日后填坑。 无线通信模块 2.4G 基本介绍 以NRF24L01为例。 NRF24L01是一款2.4GHz的无线收发模块,支持SPI通信协议,具有低功耗、高数据速率(250kbps-2Mbps)和多设备通信能力。 它可以同时与最多6个其他模块通信,适合…

记一次InternVL3- 2B 8B的部署测验日志

测试效果: 问题和耗时如图 5、资源占用 不释放资源会一直涨显存。总体还算满意,我试了好多个图理解大模型,就属它牛一点 附图一张 补充,测试InternVL3-2B的结果 1、模型下载魔搭社区 2、运行环境: 1、硬件 RTX 30…

Java版本对应关系表

Java版本对应关系表 以下Java主要版本(Major Version)与公开大版本号的对应关系 公开大版本名称Major 版本号内部版本号格式示例(java -version输出)Java 8 (1.8)52 (0x34)1.8.0_XXX1.8.0_301Java 953 (0x35)9.0.X9.0.4Java 105…