SparkSQL——(扩展) Cataylst

(扩展) Cataylst 优化器

  • RDD 和 SparkSQL 运行时的区别

    RDD 的运行流程

    在这里插入图片描述

    大致运行步骤:

    • 先将 RDD 解析为由 Stage 组成的 DAG, 后将 Stage 转为 Task 直接运行

    问题:

    • 任务会按照代码所示运行, 依赖开发者的优化, 开发者的会在很大程度上影响运行效率

    解决办法:

    • 创建一个组件, 帮助开发者修改和优化代码, 但是这在 RDD 上是无法实现的

    为什么 RDD 无法自我优化?

    • RDD 没有 Schema 信息
    • RDD 可以同时处理结构化和非结构化的数据

    SparkSQL 提供了什么?

    在这里插入图片描述

    和 RDD 不同, SparkSQL 的 Dataset 和 SQL 并不是直接生成计划交给集群执行, 而是经过了一个叫做 Catalyst 的优化器, 这个优化器能够自动帮助开发者优化代码

    也就是说, 在 SparkSQL 中, 开发者的代码即使不够优化, 也会被优化为相对较好的形式去执行

    为什么 SparkSQL 提供了这种能力?

    首先, SparkSQL 大部分情况用于处理结构化数据和半结构化数据, 所以 SparkSQL 可以获知数据的 Schema, 从而根据其 Schema 来进行优化

  • Catalyst

    为了解决过多依赖 Hive 的问题, SparkSQL 使用了一个新的 SQL 优化器替代 Hive 中的优化器, 这个优化器就是 Catalyst, 整个 SparkSQL 的架构大致如下

    在这里插入图片描述

    1. API 层简单的说就是 Spark 会通过一些 API 接受 SQL 语句
    2. 收到 SQL 语句以后, 将其交给 Catalyst, Catalyst 负责解析 SQL, 生成执行计划等
    3. Catalyst 的输出应该是 RDD 的执行计划
    4. 最终交由集群运行

    在这里插入图片描述

    Step 1 : 解析 SQL, 并且生成 AST (抽象语法树)

    在这里插入图片描述

    Step 2 : 在 AST 中加入元数据信息, 做这一步主要是为了一些优化, 例如 col = col 这样的条件, 下图是一个简略图, 便于理解

    在这里插入图片描述

    • score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long
    • score.math_score → math_score#2#L 为 score.math_score 生成 id 为 2, 类型为 Long
    • people.id → id#3#L 为 people.id 生成 id 为 3, 类型为 Long
    • people.age → age#4#L 为 people.age 生成 id 为 4, 类型为 Long

    Step 3 : 对已经加入元数据的 AST, 输入优化器, 进行优化, 从两种常见的优化开始, 简单介绍

    在这里插入图片描述

    谓词下推 Predicate Pushdown, 将 Filter 这种可以减小数据集的操作下推, 放在 Scan 的位置, 这样可以减少操作时候的数据量

    在这里插入图片描述

    • 列值裁剪 Column Pruning, 在谓词下推后, people 表之上的操作只用到了 id 列, 所以可以把其它列裁剪掉, 这样可以减少处理的数据量, 从而优化处理速度
    • 还有其余很多优化点, 大概一共有一二百种, 随着 SparkSQL 的发展, 还会越来越多, 感兴趣的同学可以继续通过源码了解, 源码在 org.apache.spark.sql.catalyst.optimizer.Optimizer

    Step 4 : 上面的过程生成的 AST 其实最终还没办法直接运行, 这个 AST 叫做 逻辑计划, 结束后, 需要生成 物理计划, 从而生成 RDD 来运行

    • 在生成物理计划的时候, 会经过成本模型对整棵树再次执行优化, 选择一个更好的计划
    • 在生成物理计划以后, 因为考虑到性能, 所以会使用代码生成, 在机器中运行

    可以使用 queryExecution 方法查看逻辑执行计划, 使用 explain 方法查看物理执行计划

    在这里插入图片描述

    在这里插入图片描述

    使用 Spark WebUI 进行查看

    在这里插入图片描述

总结

  • SparkSQL 和 RDD 不同的主要点是在于其所操作的数据是结构化的, 提供了对数据更强的感知和分析能力, 能够对代码进行更深层的优化, 而这种能力是由一个叫做 Catalyst 的优化器所提供的
  • Catalyst 的主要运作原理是分为三步, 先对 SQL 或者 Dataset 的代码解析, 生成逻辑计划, 后对逻辑计划进行优化, 再生成物理计划, 最后生成代码到集群中以 RDD 的形式运行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像分类 | 基于 Labelme 数据集和 VGG16 预训练模型实现迁移学习

Hi,大家好,我是源于花海。本文主要使用数据标注工具 Labelme 对自行车(bike)和摩托车(motorcycle)这两种训练样本进行标注,使用预训练模型 VGG16 作为卷积基,并在其之上添加了全连接…

【OpenCV学习笔记14】- 图像的几何变换

这是对于 OpenCV 官方文档中 图像处理 的学习笔记。学习笔记中会记录官方给出的例子,也会给出自己根据官方的例子完成的更改代码,同样彩蛋的实现也会结合多个知识点一起实现一些小功能,来帮助我们对学会的知识点进行结合应用。 如果有喜欢我笔…

Notepad++运行C语言输出乱码

方法一:编码-编码字符集-中文-GB2312 这时原程序中文会变成乱码,我是重新输入中文 重新编译执行即可 缺陷:重开一个程序有中文还是会显示乱码,需要重新设置编码,比较麻烦 方法二:设置-首选项-新建-右侧编…

[SWPUCTF 2022 新生赛]ez_rce

[SWPUCTF 2022 新生赛]ez_rce wp 题目页面: 这个页面真的什么都没有。 目录爆破 dirsearch -u "http://node5.anna.nssctf.cn:28677/"返回结果: 访问 /.gitignore 页面 提示 thinkphp 。 访问 /robots.txt 页面 发现目录:/NSS/…

医院住院综合服务管理系统

🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅一 、设计说明 1.1 课题背景 互…

c++中超级好用的json库--json for morden c++

文章目录 json简介在线解析json的工具json for morden c简介简单使用 json简介 json是一种轻量简单的数据结构,常用于网络数据传输,相较于xml他更加简介轻量,相较于protobuf它的学习成本更低几乎看个十几分钟就能上手,因为就是一…

【J-Flash基本使用总结】

【J-Flash基本使用总结】 VX:hao541022348 ■ 烧录文件■ 创建新的工程■ 烧录模式-SWD模式■ J-Flash下载程序到单片机 ■ J-Flash拼接多个hex或bin文件■ J-Flash读单片机的option byte■ J-Flash读单片机Flash数据■ 将读出来的文件用jflash烧录到其他的芯片■ 设…

【C语言基础考研向】02 数据类型-常量-变量

文章目录: 一.数据类型 二.常量 三.变量 四. 整型数据 五.浮点型数据 六.字符型数据 七.字符串常量 一.数据类型 数据类型分为四大类: 基本类型 整型浮点字符型 构造类型 数组结构体 指针类型空类型 二.常量 常量是指在程序运行过程中,其值不发生变化的量。常量又…

Axure组件库免费下载,国内外资源都在这儿!

Axure 组件库具有高效再利用的价值。在设计中合理使用 Axure 组件库可以快速启动工作,避免重复简单的劳动,减轻设计师的负担,从而大大提高团队的生产力。在本文中,我们将分享如何下载 Axure 组件库,并附上 Axure 组件库…

SQL性能分析

SQL性能分析 1、SQL执行频率 ​ MySQL 客户端连接成功后,通过 show [session|global] status 命令可以提供服务器状态信 息。通过如下指令,可以查看当前数据库的INSERT、UPDATE、DELETE、SELECT的访问频次: -- session 是查看当前会话 ; …

Python源码23:海龟画图turtle画小狗狗

---------------turtle源码集合--------------- Python教程43:海龟画图turtle画小樱魔法阵 Python教程42:海龟画图turtle画海绵宝宝 Python教程41:海龟画图turtle画蜡笔小新 Python教程40:使用turtle画一只杰瑞 Python教程39…

2024年第十届控制、自动化与机器人国际会议(ICCAR 2024)即将召开!

2024年4月27~29日 新加披 会议官网:10th-ICCAR 2024https://iccar.org/index.html 第十届控制、自动化和机器人国际会议将于2024年4月27-29日在新加坡举办。本次会议由新加坡电子学会,IEEE机器人和自动控制协会和IEEE联合主办,并得到北京航空…

day2·算法-快乐数-有效三角形个数

今天又来更新啦,准备蓝桥杯的小伙伴可以和我一起来刷题,建议大家先看题,整理出思路,再看如何用简单的写法将思路构建出来,然后优化细节,找到解决某些例外出现的方法,从而成功解答这道题。 快乐…

群发邮件的免费软件?做外贸用什么邮箱好?

群发邮件的免费软件有哪些?好用的邮件群发软件? 在数字时代,邮件已成为人们沟通的主要方式之一。有时候,我们需要给大量的联系人发送信息,这时候,群发邮件就显得格外重要。接下来蜂邮就来探讨一下那些值得…

SuperMap iDesktopX 11i(2023) 新特性之按过滤条件删除对象

作者:bsy 文章目录 前言功能入口:参数说明:结果展示: 前言 当对一个大数据量的数据集删除多个数据时,旧版本的 iDesktopX 可以从地图中选择要素删除,也可以从属性表中选中一行进行删除,但是操作…

Transformer简单理解

目录 一、CNN存在的问题:二.Transformer整理架构分析:1.Linear Projection of Flattened Patches层形成Patch:2.对每个Patch进行位置编码Position Embedding:3.Transformer Encoder: 三.公式解读: 一、CNN存在的问题&a…

Ansys Zemax | 如何使用光学制造全息图修正像差

附件下载 联系工作人员获取附件 本文介绍了利用光学全息图降低单透镜像差的方法。在描述了表示全息图构造光束的两个 ZMX 文件之后,本文演示了如何在重现文件中设置 OFH。然后解释了如何轻松地从重现文件中访问任何结构造光束变量,以实现衍射受限单透镜…

数据结构学习 jz45 把数组排成最小的数

关键词:贪心 排序 快速排序 题目:破解闯关密码 思路: 快排自己制定快排规则 开辟一个vector存string,自己制定排序规则,然后用快排比较string大小。 排序规则: sort(strs.begin(),strs.end(),[](string…

建造者模式深入理解:演示建造单个和多个产品的实践,结合模板模式,通俗易懂

首先呢看下建造者的定义是什么样的,先读一遍 建造者模式 建造者模式(Builder Pattern)是一种创建型设计模式,它主要用于将一个复杂对象的构建过程与它的表示分离,使得同样的构建过程可以创建不同的表现形式。这种模式…

编程笔记 html5cssjs 040 CSS盒子模型

编程笔记 html5&css&js 040 CSS盒子模型 一、CSS 盒子模型二、元素的宽度和高度三、最终元素的总宽度四、元素的总高度五、练习小结 网页是靠分成不同的块,再赋予这些块各不相同的属性来布局的。所以这个“块”是一个基础。先看块本身的构造。 一、CSS 盒子…