SparkSQL执行流程与Catalyst优化器

目录

一、SparkSQL运行流程与Catalyst优化器

        (1)RDD运行流程

        (2)SparkSQL自动优化

        (3)Catalyst优化器流程

        (4)Catalyst优化器总结

        (5)Spark SQL执行流程


一、SparkSQL运行流程与Catalyst优化器

        (1)RDD运行流程
RDD简要流程

        (2)SparkSQL自动优化

        RDD的运行会完全安装开发者的代码执行,如果开发者水平有限,RDD的执行效率也会受到影响。而SparkSQL会对写完的代码,执行“ 自动优化 ”,以提高代码运行效率,比米娜开发者水平影响到代码执行效率。

        为什么Spark SQL可以自动优化,而RDD不可以?因为RDD内含数据类型不限格式和结构,而Data Frame 100%是二维表结构,可以针对性的进行优化。Spark SQL的自动优化,依赖于Catalyst优化器。

        (3)SparkSQL架构

        为了解决过多依赖Hive 的问题,SparkSQL使用了一个新的SQL优化器替代 Hive 中的优化器,这个优化器就是Catalyst,整个SparkSQL的架构大致如下:

        1.API层简单的说就是Spark 会通过一些API接受SQL语句.

        2.收到SQL语句以后,将其交给Catalyst,Catalyst负责解析SQL,生成执行计划等

        3.Catalyst的输出应该是RDD的执行计划.

        4.最终交由集群运行.

        (3)Catalyst优化器流程

        Step 1:解析SQL,并且生成AST(抽象语法树,从下往上读)

        Step2:在AST中加入元数据信息,做这一步主要是为了一些优化,如下图

        Step3:对已经加入元数据的AST,输入优化器,继续优化,从两种常见的优化开始。

        ①断言下推(Predicate Pushdown):将filter这种可以减少数据集的操作下推,放在Scan的位置,这样就可以减少操作时候的数据量。

        如下图:正常流程是先Join,然后做WHERE,断言下推后,会先过滤age,然后再Join,减少Join的数据量提高性能。

        ②列值裁剪(Column Pruning):在断言下推后执行裁剪。

        如下图:由于people表之上的操作只用到了id列,所有可以把其他列裁剪掉,这样就可以减少处理的数据量,从而优化处理速度。

        还有其余许多优化点,大概一共有一两百种,随着Spark SQL发展也会越来越多,想要了解更多可以查阅Spark源码:org.apache.spark.sql.catalyst.optimizer.Optimizer

        Step4:经过上述流程后,产生的AST其实最终还没有办法直接运行,这个AST叫做逻辑计划,结束后,需要生成物理计划,从而生成RDD来运行。

        在生成“ 物理计划 ”的时候,会经过“ 成本模型 ”对整棵树再次执行优化,选择一个更好的计划,在生成“ 物理计划 ”以后,因为考虑到性能,所有会使用代码生成,在机器中运行。可以使用queryExecution 方法查看逻辑执行计划,使用explain方法查看物理执行计划

        (4)Catalyst优化器总结

        catalyst的各种优化细节非常多,大方面的优化点有2个:

        ①谓词下推(Predicate Pushdown)\断言下推:将逻辑判断提前到前面,以减少shuffle阶段的数据量。简述,行过滤,提前执行where。

        ②列值裁剪(Column Pruning):将加载的列进行裁剪,尽量减少被处理数据的宽度。简述,列过滤,提前规划select的字段数量。

        (5)Spark SQL执行流程

        1.提交SparkSQL代码

        2.catalyst优化

                a.生成原始AST语法数

                b.标记AST元数据

                c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上

                d.将最终AST得到,生成执行计划

                e.将执行计划翻译为RDD代码

        3. Driver执行环境入口构建(SparkSession)

        4.DAG调度器规划逻辑任务

        5.TASK调度区分配逻辑任务到具体Executor上工作并监控管理任务

        6. Worker干活.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/118206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HttpClient远程使用大全

一 HttpClient简介 1.1 概述 HttpClient只能以编程的方式通过其API用于传输和接受HTTP消息。主要实现功能: 实现了所有 HTTP 的方法(GET、POST、PUT、HEAD、DELETE、HEAD、OPTIONS 等) 支持 HTTPS 协议 支持代理服务器(Nginx…

【网络安全 --- xss-labs靶场通关(11-20关)】详细的xss-labs靶场通关思路及技巧讲解,让你对xss漏洞的理解更深刻

如果需要安装各种系统,虚拟机,工具等等关注我,已经在出系统的课程了 一,靶场安装 超详细的靶场安装教程如下,提供工具,靶场,镜像等 【网络安全 --- xss-labs靶场】xss-labs靶场安装详细教程&…

前端跨域相关

注:前端配置跨域后服务器端(Nginx)也需要配置,否则接口无法访问 vue跨域 配置文件 /vue.config.js devServer: { port: 7100, proxy: { /api: { target: http://域名, changeOrigin: true, logLevel: debug, pathRewrite: { ^/…

程序员想要网上接单却不知道如何是好?那这篇文章你可得收藏好了!

作为一名程序员,想要网上接单赚赚零花钱,提高生活水平,这当然是无可厚非的,甚至有许多人已经将网上接单作为主业。 可是面对网上五花八门的接单平台,看着网上真真假假的信息,你真的清楚如何选择吗&#xf…

深度学习_6_实战_点集最优直线解_代码解析

问题描述: 上述题目的意思为,人工造出一些数据点,对我们的模型y Xw b ∈进行训练,其中标准模型如下: 其中W和X都为张量,我们训练的模型越接近题目给出的标准模型越好 训练过程如下: 人造数…

用傲梅分区软件分割分区重启系统蓝屏BAD_SYSTEM_CONFIG_INFO,八个解决参考方案

环境: Win11 专业版 HP 笔记本 傲梅分区软件 闪迪16G U盘 Win10 官方镜像文件 Win11PE 系统安装U盘 USB固态硬盘盒 问题描述: 起因 开始使用windows自动磁盘管理工具压缩不了磁盘,提示无法将卷压缩到超出任何不可移动的文件所在点,关闭系统保护还原,删除系统创建…

VSCode C/C++ 分目录+多文件编译配置2

前言:介绍 task.json 和 launch.json 文件 task.json 和 launch.json 是用于配置 VS Code 编辑器中的任务 和 调试功能的两个重要文件。 task.json 文件用于配置任务,它定义了执行特定操作的任务,并提供了相应的命令和参数。以下是 task.js…

2、Linux权限理解

个人主页:Lei宝啊 愿所有美好如期而遇 目录 前言 Linux权限的概念 1.文件访问者的分(人) 2.文件类型和访问权限(事物属性) 3.文件权限值的表示方法 4.文件访问权限的相关设置方法 file指令 目录的权限 粘滞位 关于权限的总结 前言 在开始Linux权限理…

excel常用的几个函数

1、MID函数 通常用来返回返回指定字符串中的子串。 函数公式: MID(string, starting_at, extract_length) String(必填):包含要提取字符的文本字符串 starting_at(必填):文本中要提取的第一个字…

YOLO目标检测——行人数据集【含对应voc、coco和yolo三种格式标签+划分脚本】

实际项目应用:智能监控、人机交互、行为分析、安全防护数据集说明:行人检测数据集,真实场景的高质量图片数据,数据场景丰富标签说明:使用lableimg标注软件标注,标注框质量高,含voc(xml)、coco(j…

docker-compose安装ES7.14和Kibana7.14(有账号密码)

一、docker-compose安装ES7.14.0和kibana7.14.0 1、下载镜像 1.1、ES镜像 docker pull elasticsearch:7.14.0 1.2、kibana镜像 docker pull kibana:7.14.0 2、docker-compose安装ES和kibana 2.1、创建配置文件目录和文件 #创建目录 mkdir -p /home/es-kibana/config mkdir…

音视频技术开发周刊 | 316

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 日程揭晓!速览深圳站大会专题议程详解 LiveVideoStackCon 2023 音视频技术大会深圳站,保持着往届强大的讲师阵容以及高水准的演讲质量。两天的参会…

【解锁未来】探索Web3的无限可能性-01

文章目录 前言什么是Web3? 前言 还记得你第一次听说比特币吗?也许那只是一个关于新技术将改变一切的微弱嗡嗡声。也许你会有一种 "FOMO "的感觉,因为那些早早入场的人突然积累了一大笔财富–尽管你并不清楚这些 "钱 "可…

flutter开发的一个小小小问题,内网依赖下不来

问题 由于众所周知的原因,flutter编译时,经常出现Could not get resource https://storage.googleapis.com/download.flutter.io…的问题,如下: * What went wrong: Could not determine the dependencies of task :app:lintVit…

ip报头和ip报文切片组装问题

在tcp层将数据打包封装向下传递后,网络层将其整个看为一个数据,然后对其数据加网络报头操作,在网络层最具有代表的协议就是ip协议。在这里我们探究ipv4的报头。 ip报头 4位版本:指定ip的版本号,对于ipv4来说就是4。 …

asp.net文档管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net文档管理系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言开发 asp.net文档管理系统 二、功能介绍 (1…

C++ list 的使用

目录 1. 构造函数 1.1 list () 1.2 list (size_t n, const T& val T()) 1.3 list (InputIterator first, InputIterator last) 2. bool empty() const 3. size_type size() const 4. T& front() 4. T& back() 5. void push_front (const T& val) 6.…

FL Studio 21 for Mac中文破解版百度网盘免费下载安装激活

FL Studio 21 for Mac中文破解版是Mac系统中的一款水果音乐编辑软件,提供多种插件,包括采样器、合成器和效果器,可编辑不同风格的音乐作品,Pattern/Song双模式,可兼容第三方插件和音效包,为您的创意插上翅膀…

java _JDBC 开发

目录 一.封装JDBCUtiles 二.事务 三.批处理 四.数据库连接池 C3P0 Druidf(德鲁伊)阿里 五.Apache-DBUtiles 六.Apache-DBUtils 七.DAO 和增删改查 通用方法 - BasicDao 一.封装JDBCUtiles 说明:在jdbc操作中,获取连接和释放资源&#…

设计模式:代理模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

上一篇《组合模式》 下一篇《命令模式》 简介: 代理模式,它是一种结构型设计模式,它通过引入一个代理对象来控制对原始对象的访问。代理模式的主要目的是在保持原始对象…