Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

工作流程:

  1. Driver 创建 SparkSession 并将应用程序转化为执行计划,将作业划分为多个 Stage,并创建相应的 TaskSet。
  2. Driver 将 TaskSet 发送给 TaskScheduler 进行调度和执行。
  3. TaskScheduler 根据资源情况将任务分发给可用的 Executor 进程执行。
  4. Executor 加载数据并执行任务的操作,将计算结果保存在内存中。
  5. Executor 将任务的执行结果返回给 Driver。
  6. DAGScheduler 监控任务的执行状态和依赖关系,并根据需要调整任务的执行顺序和依赖关系。
  7. TaskScheduler 监控任务的执行状态和资源分配情况,负责任务的调度和重新执行。

在 Spark 中,有多个概念和组件相互协作,以实现分布式数据处理。下面是这些概念和组件的详细说明及它们之间的工作关系:

  1. Driver(驱动器):

    • Driver 是 Spark 应用程序的主要组件,负责整个应用程序的执行和协调。
    • 它包含了应用程序的主函数,并将用户程序转化为执行计划。
    • Driver 与集群管理器通信,请求资源,并监控应用程序的执行状态。
    • 它还与 Executor 进程进行通信,发送任务并接收任务执行结果。
  2. Executor(执行器):

    • Executor 是运行在集群的工作节点上的进程,负责执行任务和计算。
    • 它由集群管理器分配给应用程序,用于并行处理数据和执行操作。
    • Executor 加载数据到内存中,并根据分配的任务执行相应的操作。
    • 它将计算结果保存在内存中,并将结果返回给 Driver。
  3. Application(应用程序):

    • 应用程序是用户编写的 Spark 代码,用于数据处理和分析。
    • 应用程序由 Driver 执行,将用户定义的操作转化为执行计划。
    • 应用程序可以包含多个 Job,并且可以跨多个阶段进行分布式计算。
  4. Job(作业):

    • Job 是应用程序中的一个独立任务单元,由用户定义的操作组成。
    • Job 定义了数据的转换和操作,可以包含多个 Stage。
  5. Stage(阶段):

    • Stage 是 Job 的子任务单位,有两种类型:Shuffle Stage 和 Result Stage。
    • Shuffle Stage 包含需要进行数据洗牌的操作,如 groupByKey、reduceByKey 等。
    • Result Stage 包含没有数据洗牌的操作,如 map、filter 等。
    • Stage 通过依赖关系构成有向无环图(DAG),描述了数据的转换和操作流程。
  6. TaskSet(任务集合):

    • TaskSet 是一个 Stage 中所有任务的集合。
    • TaskSet 中的任务是并行执行的,每个任务对应一部分数据的处理。
    • TaskSet 由 Driver 创建,并发送给 TaskScheduler 进行调度和执行。
  7. Task(任务):

    • Task 是 Spark 中最小的执行单元,对应于一个数据分区的处理。
    • 一个 Stage 中的任务数等于分区数,每个任务负责处理一个数据分区。
    • 任务在 Executor 上执行,加载数据并执行用户定义的操作。
  8. DAGScheduler(有向无环图调度器):

    • DAGScheduler 负责将应用程序转化为有向无环图(DAG)的形式。
    • 它根据任务之间的依赖关系,将 Job 划分为多个 Stage,并确定它们的执行顺序。
    • DAGScheduler 将任务发送给 TaskScheduler 进行调度和执行。
  9. TaskScheduler(任务调度器):

    • TaskScheduler 是 Spark 中的任务调度器,负责将任务分发给 Executor 进程执行。
    • 它根据资源需求和可用资源,将任务分配给合适的 Executor 进程。
    • TaskScheduler 还负责监控任务的执行状态,处理任务失败和重试等情况。

关系:一个Driver可以产生多个Application;一个Application可以产生多个Job​​​​​​​;一个Job对应多个Stage;一个Stage对应一个TaskSet(TaskSet是Stage内部调度的基本单位);一个Stage对应多个Task(一个TaskSet为一组Task集合);一个Task对应一个分区;

每个Application都有自己独立的执行环境和资源分配,它们之间相互独立,互不干扰。每个Application都会有自己的SparkContext,用于与集群进行通信和资源管理。


如有错误,欢迎指出!!!

如有错误,欢迎指出!!!

如有错误,欢迎指出!!!

扩展文章推荐:

1500字带你读懂 Spark任务的角色分工! - 知乎

一篇文章搞清spark任务如何执行 - 掘金

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task] - 掘金

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/105969.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DAE转换GLB格式

1、DAE模型介绍 DAEA(Deep Attentive and Ensemble Autoencoder)模型是一种用于无监督学习的深度学习模型,由华为公司提出。DAEA模型结合了自编码器和深度注意力机制,能够对高维数据进行降维和特征提取,并且在处理大规…

博图数值按照特定格式(“T000000”)转换成字符串

一、前言 1.string to dint物流输送线往往需要通过扫码器读取托盘条码,一维码或者二维码​。 读取的数据需要解析才能正常使用。两种方式读取的数据直接是字符串,但当设备与上位机通信时, 字符串数据量太大,故可以通过算法转换成…

Ceph分布式存储的简单介绍与Ceph集群的部署搭建

文章目录 1. 存储的概述1.1 单机存储设备1.1.1 DAS(直接附加存储)1.1.2 NAS(网络附加存储)1.1.3 SAN(存储区域网络) 1.2 单机存储的缺陷1.3 分布式存储(软件定义的存储 SDS)1.4 分布…

unity ugui text 超链接和下划线,支持部分富文本格式

unity版本:2021.3.6f1 局限性: 1.测试发现不能使用 size 富文本标签, 2.同一文本不能设置不同颜色的超链接文本 其它:代码中注释掉使用innerTextColor的地方,可以使用富文本设置超链接颜色, 但是下划线是文本本身颜色 …

windows部署django服务器

windows部署django服务器 1、安装IIS1.1 控制面板-----程序----程序和功能----启用或关闭windows功能1.2安装IIS服务器,完成后,重新进入,把CGI安装进系统 2、安装python与虚拟环境2.1 安装python2.2 安装virtualenv虚拟环境2.3 创建一个虚拟环…

求二叉树的高度——函数递归的思想

二叉树的高度:左右两个数最高的那个的1 int TreeHight(BTNode* root) {if (root NULL){return 0;}int lefhightTreeHight(root->left);int righthight TreeHight(root->right);return lefhight > righthight ? TreeHight(root->left) 1 : TreeHight…

想要精通算法和SQL的成长之路 - 连续的子数组和

想要精通算法和SQL的成长之路 - 连续的子数组和 前言一. 连续的子数组和1.1 最原始的前缀和1.2 前缀和 哈希表 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 连续的子数组和 原题链接 1.1 最原始的前缀和 如果这道题目,用前缀和来算,我们的思路…

雷电模拟器上使用第一个frida(三)简单的使用实例

经过前两篇 雷电模拟器上使用第一个frida(一)之安装-CSDN博客雷电模拟器上使用第一个frida(二)之su超级权限-CSDN博客 本篇开始记录如何使用frida进行hook。 一、先让手机模拟器端的frida server运行起来 虽然是让手机模拟器端…

Rust 流程控制

开发中最常见的用来控制执行流的结构是判断和循环。 判断 Rust 中的 if 表达式允许根据条件执行不同的代码分支,提供一个条件并表示 “如果条件满足,运行这段代码;如果条件不满足,不运行这段代码。” 需要注意的是,…

华为云云耀云服务器L实例评测|企业项目最佳实践之计划任务与Queue队列实践 (十)

十一、计划任务与Queue队列实践: 1. 计划任务: Linux环境下定时或者周期性的执行一些任务通常由cron这个守护进程来完成,这是一个系统自带的相对也比较方便的系统工具。 sudo apt-get install cron // 默认自带目录结构: 目录说…

驾驶数字未来:汽车业界数字孪生技术的崭新前景

随着数字化时代的到来,汽车行业正经历着前所未有的变革。数字孪生技术,作为一种前沿的数字化工具,正在为汽车行业带来革命性的影响,不仅改变着汽车制造和维护的方式,也为消费者带来了前所未有的体验。让我们一起探讨&a…

算法通过村第十四关-堆|白银笔记|经典问题

文章目录 前言在数组中寻找第K大的元素堆排序原理合并K个排序链表总结 前言 提示:想要从讨厌的地方飞出来,就得有藏起来的翅膀。 --三岛由纪夫《萨德侯爵夫人》 这里我们主要看一下经典的题目,这三个题目来说都是堆的热点问题。重点再理解处理…

SpringMVC之WEB-INF下页面跳转@ModelAttributeIDEA tomcat控制台中文乱码问题处理

WEB-INF下页面跳转 ModelAttribute来注解非请求处理方法 用途:预加载数据,会在每个RequestMapping方法执行之前调用。 特点:无需返回视图,返回类型void IDEA tomcat控制台中文乱码问题处理 复制此段代码:-Dfile.e…

有 AI,无障碍,AIoT 设备为视障人群提供便利

据世界卫生组织统计,全球共 22 亿人视力受损,包含 2.85 亿视障人群和 3,900 万全盲人群。而且,这一数字将随老龄化加剧不断增加。 虽然视障人群面临着诸多不便,但是针对视障人群的辅助设备却存在成本高、维护困难、操作复杂等问题…

【传输层协议】UDP/TCP结构特点与原理(详解)

文章目录 1. UDP1.1 UDP结构1.2 UDP特点1. 无连接2. 不可靠3. 面向数据报4. 缓冲区5. 大小受限6. 无序性 2. TCP2.1 TCP结构2.2 TCP特点1. 有连接2. 可靠性3. 面向字节流4. 拥塞控制5. 头部开销 2.3 TCP原理1. 确认应答(安全机制)2. 超时重传&#xff08…

爬虫 | 基础模块了解

文章目录 📚http协议📚requests模块📚re模块🐇 re.I 或 re.IGNORECASE🐇re.M或 re.MULTILINE🐇re.S 或 re.DOTALL🐇 re.A 或 re.ASCII🐇 re.X 或 re.VERBOSE🐇特殊字符类…

攻防世界数据逆向 2023

https://adworld.xctf.org.cn/contest/list?rwNmOdr1697354606875 目录 请求数据参数加密 cookie加密 响应数据解密 代码 请求数据参数加密 我们可以根据请求的关键字qmze1yzvhyzcyyjr获取到对应的加密地方 可以看到使用了函数_0x1dc70进行了加密 cookie加密 该步骤需…

SpringBoot面试题4:Spring Boot 支持哪些日志框架?推荐和默认的日志框架是哪个?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Spring Boot 支持哪些日志框架?推荐和默认的日志框架是哪个? Spring Boot支持多种日志框架,包括以下几种: Logback:Logback 是一个快速、灵活…

面试总结(mysql定精度/oom排查/spring三级缓存/stream流)

Mysql数据类型上的一个把握 1、MySQL Decimal为什么不会丢失精度 DECIMAL的存储方式和其他数据类型都不同,它是以字符串形式存储的。假设一个字段为DECIMAL(3,0),当我们存入100时,实际上存入的1、0、0这三个字符拼接而成的字符串的二进制值&…

物联网AI MicroPython传感器学习 之 TDS水质检测传感器

学物联网,来万物简单IoT物联网!! 一、产品简介 TDS是Total Dissolved Solids的缩写,中文名总溶解固体,也叫溶解性固体总量,他标识1升水中溶有多少毫克的可溶解性固体。一般来说,TDS值越高&…