Spark-SQL

Spark-SQL 概述

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块

Shark 是伯克利实验室 Spark 生态环境的组件之一,是基于 Hive 所开发的工具,它修改了内存管理、物理计划、执行三个模块,并使之能运行在 Spark 引擎上

Shark 的出现,使得 SQL-on-Hadoop 的性能比 Hive 有了 10-100 倍的提高

Spark 团队重新开发了SparkSQL代码;摆脱了对Hive的依赖性,SparkSQL 无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便

1.数据兼容方面 SparkSQL 不但兼容 Hive,还可以从 RDD、parquet 文件、JSON 文件中 获取数据,未来版本甚至支持获取 RDBMS 数据以及 cassandra 等 NOSQL 数据

2.性能优化方面 除了采取 In-Memory Columnar Storage、byte-code generation 等优化技术 外、将会引进 Cost Model 对查询进行动态评估、获取最佳物理计划等等

3.组件扩展方面无论是 SQL 的语法解析器、分析器还是优化器都可以重新定义,进行扩 展

Spark-SQL 特点

1.易整合。无缝的整合了 SQL 查询和 Spark 编程

2.统一的数据访问。使用相同的方式连接不同的数据源

3.兼容 Hive。在已有的仓库上直接运行 SQL 或者 HQL

4.标准数据连接。通过 JDBC 或者 ODBC 来连接

DataFrame

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中 的二维表格

DataFrame 与 RDD 的区别

主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型

 DataSet

DataSet 是分布式数据集合,是 DataFrame 的一个扩展,是 SparkSQL 最新的数据抽象。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter 等等)

Spark-SQL核心编程(一)

DataFrame

Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式。DataFrame API 既有 transformation 操作也有 action 操作

创建 DataFrame

在 Spark SQL 中 SparkSession 是创建 DataFrame 和执行 SQL 的入口,创建 DataFrame

有三种方式:通过 Spark 的数据源进行创建;从一个存在的 RDD 进行转换;还可以从 Hive

Table 进行查询返回

Spark-SQL支持的数据类型:

在 spark 的 bin/data 目录中创建 user.json 文件并在文件中添加数据

读取 json 文件创建 DataFrame,展示数据

SQL 语法

SQL 语法风格是指我们查询数据的时候使用 SQL 语句来查询,这种风格的查询必须要

有临时视图或者全局视图来辅助

实例:

  读取 JSON 文件创建 DataFrame

对 DataFrame 创建一个临时表,通过 SQL 语句实现查询全表,结果展示

Spark-SQL核心编程(二)

DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据

可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格

实例:

创建一个 DataFrame

查看 DataFrame 的 Schema 信息

只查看"username"列数据

    查看"username"列数据以及"age+1"数据

    注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名

    查看"age"大于"18"的数据

    按照"age"分组,查看数据条数

    RDD 转换为 DataFrame

    创建id.txt,并添加数据

    将数据导入并查询

    实际开发中,一般通过样例类将 RDD 转换为 DataFrame

    DataFrame 转换为 RDD

    DataFrame 其实就是对 RDD 的封装,所以可以直接获取内部的 RDD

    实例:

    注意:此时得到的 RDD 存储类型为 Row

    Spark-SQL核心编程(三)

    DataSet

    创建 DataSet

    实例:

    使用样例类序列创建 DataSet

    使用基本类型的序列创建 DataSet

    注意:在实际使用的时候,很少用到把序列转换成DataSet,更多的是通过RDD来得到DataSet

    RDD 转换为 DataSet

    parkSQL 能够自动将包含有 case 类的 RDD 转换成 DataSet,case 类定义了 table 的结 构,case 类属性通过反射变成了表的列名

    实例:

    DataSet 转换为 RDD

    DataSet 其实也是对 RDD 的封装,所以可以直接获取内部的 RDD

    实例:

    此处报错原因是 res3  并不存在(从前面代码看没有定义过 res3  ),而且即使存在,如果它的类型不是包含 rdd  成员的类型(比如不是 Dataset  等相关类型)

    DataFrame 和 DataSet 转换

    DataFrame 其实是 DataSet 的特例,所以它们之间是可以互相转换的

    DataFrame 转换为 DataSet

    实例

    DataSet 转换为 DataFrame

    实例

    RDD、DataFrame、DataSet 三者的关系

    从版本的产生上来看:

    Spark1.0 => RDD

    Spark1.3 => DataFrame

    Spark1.6 => Dataset

    同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不

    同是的他们的执行效率和执行方式。在后期的 Spark 版本中,DataSet 有可能会逐步取代 RDD和 DataFrame 成为唯一的 API 接口

    三者的共性

    1)RDD、DataFrame、DataSet 全都是 spark 平台下的分布式弹性数据集,为处理超大型数

    据提供便利;

    2)三者都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到

    Action 如 foreach 时,三者才会开始遍历运算;

    3)三者有许多共同的函数,如 filter,排序等;

    4)在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包:

            import spark.implicits._(在创建好 SparkSession 对象后尽量直接导入)

    5)三者都会根据 Spark 的内存情况自动缓存运算,这样即使数据量很大,也不用担心会

    内存溢出

    6)三者都有分区(partition)的概念

    7)DataFrame 和 DataSet 均可使用模式匹配获取各个字段的值和类型

    三者的区别

    1) RDD

    ➢ RDD 一般和 spark mllib 同时使用

    ➢ RDD 不支持 sparksql 操作

    2) DataFrame

    ➢ 与 RDD 和 Dataset 不同,DataFrame 每一行的类型固定为Row,每一列的值没法直

    接访问,只有通过解析才能获取各个字段的值

    ➢ DataFrame 与 DataSet 一般不与 spark mllib 同时使用

    ➢ DataFrame 与 DataSet 均支持 SparkSQL 的操作,比如 select,groupby 之类,还能

    注册临时表/视窗,进行 sql 语句操作

    ➢ DataFrame 与 DataSet 支持一些特别方便的保存方式,比如保存成 csv,可以带上表

    头,这样每一列的字段名一目了然

    3) DataSet

    ➢ Dataset 和 DataFrame 拥有完全相同的成员函数,区别只是每一行的数据类型不同。

    DataFrame 其实就是 DataSet 的一个特例 type DataFrame = Dataset[Row]

    ➢ DataFrame 也可以叫 Dataset[Row],每一行的类型是 Row,不解析,每一行究竟有哪

    些字段,各个字段又是什么类型都无从得知,只能用上面提到的 getAS 方法或者共性里提到的模式匹配拿出特定字段。而 Dataset 中,每一行是什么类型是不一定的,在自定义了 case class 之后可以很自由的获得每一行的信息

    三者可以通过上图的方式进行相互转换

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76854.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    Java 在人工智能领域的突围:从企业级架构到边缘计算的技术革新

    一、Java AI 的底层逻辑:从语言特性到生态重构 在 Python 占据 AI 开发主导地位的当下,Java 正通过技术重构实现突围。作为拥有 30 年企业级开发经验的编程语言,Java 的核心优势在于强类型安全、内存管理能力和分布式系统支持,这…

    编程实现除法程序时需要注意的细节

    使用Python实现除法程序时,需注意以下关键细节: 除数为零的处理 必须检查除数是否为零,否则会触发ZeroDivisionError异常。可通过try-except结构捕获异常并处理。 整数除法与浮点数除法的区别 • 使用/运算符时,无论操作数是否为…

    Java万级并发场景-实战解决

    今天我们来做一个典型的消费力度能达到万级别的并发场景,老师点名-学生签到 正常情况 正常情况来说是不同班级下的老师发布不同的点名--然后不同班级下的很多学生同一时间进行签到,签到成功就去修改数据库,签到失败就返回,但是这…

    openGauss新特性 | 自动参数化执行计划缓存

    目录 自动化参数执行计划缓存简介 SQL参数化及约束条件 一般常量参数化示例 总结 自动化参数执行计划缓存简介 执行计划缓存用于减少执行计划的生成次数。openGauss数据库会缓存之前生成的执行计划,以便在下次执行该SQL时直接使用,可…

    计算机操作系统——存储器管理

    系列文章目录 1.存储器的层次结构 2.程序的装入和链接 3.连续分配存储管理方式(内存够用) 4.对换(Swapping)(内存不够用) 5.分页存储管理方式 6.分段存储管理方式 文章目录 系列文章目录前言一、存储器的存储结构寄存器&…

    KF V.S. GM-PHD

    在计算机视觉的多目标跟踪(MOT)任务中,卡尔曼滤波(KF)和高斯混合概率假设密度(GM-PHD)滤波器是两种经典的状态估计方法,但它们的原理和应用场景存在显著差异。以下是两者的核心机制和…

    车载通信架构 --- DOIP系统机制初入门

    我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 周末洗了一个澡,换了一身衣服,出了门却不知道去哪儿,不知道去找谁,漫无目的走着,大概这就是成年人最深的孤独吧! 旧人不知我近况,新人不知我过…

    C++对象池设计:从高频`new/delete`到性能飞跃的工业级解决方案

    一、new/delete的性能之殇:一个真实的生产事故 2023年某证券交易系统在峰值时段出现请求堆积,事后定位发现:每秒40万次的订单对象创建/销毁,导致: 内存碎片率高达37%(jemalloc统计)malloc调用…

    【C/C++】深入理解整型截断与提升:原理、应用与区别

    文章目录 1. 整形截断(Integer Truncation)1.1 整形截断的例子1.2 整形截断的细节 2. 整形提升(Integer Promotion)2.1 整形提升的规则2.2 整形提升的示例2.3 整形提升的实际应用2.4 整型提升与标准操作符 3. 整型截断与提升的区别…

    python蓝桥杯备赛常用算法模板

    一、python基础 (一)集合操作 s1 {1,2,3} s2{3,4,5} print(s1|s2)#求并集 print(s1&s2)#求交集 #结果 #{1, 2, 3, 4, 5} #{3}(二)对多维列表排序 1.新建列表 list1[[1,2,3],[2,3,4],[0,3,2]] #提取每个小列表的下标为2的…

    【模块化拆解与多视角信息3】教育背景:学历通胀时代的生存法则

    教育背景:学历通胀时代的生存法则 写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算…

    uniapp实现H5页面麦克风权限获取与录音功能

    1.权限配置 在uni-app开发H5页面时,需要在manifest.json文件中添加录音权限的配置。具体如下: {"h5": {"permissions": {"scope.record": {"desc": "请授权使用录音功能"}}} }这段配置代码是用于向…

    功能丰富的PDF处理免费软件推荐

    软件介绍 今天给大家介绍一款超棒的PDF工具箱,它处理PDF文档的能力超强,而且是完全免费使用的,没有任何限制。 TinyTools(PC)这款软件,下载完成后即可直接打开使用。在使用过程中,操作完毕后&a…

    鸿蒙开发-ArkUi控件使用

    2.0控件-按钮 2.1.控件-文本框 Text(this.message).fontSize(40) // 设置文本的文字大小.fontWeight(FontWeight.Bolder) // 设置文本的粗细.fontColor(Color.Red) // 设置文本的颜色------------------------------------------------------------------------- //设置边框Tex…

    深入理解 ResponseBodyAdvice 及其应用

    ResponseBodyAdvice 是 Spring MVC 提供的一个强大接口&#xff0c;允许你在响应体被写入 HTTP 响应之前对其进行全局处理。 下面我将全面介绍它的工作原理、使用场景和最佳实践。 基本概念 接口定义 public interface ResponseBodyAdvice<T> {boolean supports(Metho…

    深度解析Redis过期字段清理机制:从源码到集群化实践 (一)

    深度解析Redis过期字段清理机制&#xff1a;从源码到集群化实践 一、问题本质与架构设计 1.1 过期数据管理的核心挑战 Redis连接池时序图技术方案 ​​设计规范&#xff1a;​ #mermaid-svg-Yr9fBwszePgHNnEQ {font-family:"trebuchet ms",verdana,arial,sans-se…

    数据库ocm有什么用

    专业能力的权威象征 。技术水平的高度认可&#xff1a;OCM 是 Oracle 认证体系中的最高级别&#xff0c;代表着持证人在 Oracle 数据库领域具备深厚的专业知识和卓越的实践技能。它证明持证人能够熟练掌握数据库的安装、配置、管理、优化、备份恢复等核心技术&#xff0c;并且能…

    无人船 | 图解基于视线引导(LOS)的无人艇制导算法

    目录 1 视线引导法介绍2 LOS制导原理推导3 Lyapunov稳定性分析4 LOS制导效果 1 视线引导法介绍 视线引导法&#xff08;Line of Sight, LOS&#xff09;作为无人水面艇&#xff08;USV&#xff09;自主导航领域的核心技术&#xff0c;通过几何制导与动态控制深度融合的机制&am…

    Swift观察机制新突破:如何用AsyncSequence实现原子化数据监听?

    网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…

    【KWDB创作者计划】_KWDB部署与使用详细版本

    KWDB发展历程 介绍KWDB前&#xff0c;先介绍下KaiwuDB&#xff0c; KaiwuDB 是浪潮控股的数据库企业&#xff0c;该企业提供的KaiwuDB数据库是一款分布式多模数据库产品&#xff0c;主要面向工业物联网、数字能源、车联网、智慧产业等行业领域。 在2024年7月&#xff0c; Kai…