Spark天堂之门解密

 本课主题

  • 什么是 Spark 的天堂之门
  • Spark 天堂之门到底在那里
  • Spark 天堂之门源码鉴赏

 

引言

  Spark 天堂之门就是SparkContext,这篇文章会从 SparkContext 创建3大核心对象 TaskSchedulerImpl、DAGScheduler 和 SchedulerBackend 开始到注册给 Master 这个过程中的源码鉴赏,SparkContext 是整个 Spark 程序通往集群的唯一通道,它是程序起点,也是程序终点,所以把它称之为天堂之门,看过 Spark HelloWorld 程序的朋友都知道,你在程序的开头必需先定义SparkContext、接着调用 SparkContext 的方法,比如说 sc.textFile(file),最后也会调用 sc.stop( ) 来退出应用程序。现在我们就来看看 SparkContext 里面到底有什么秘密,以及为什么它会被称为天堂之门。希望这篇文章能为读者带出以下的启发:

  • 了解在 SparkContext 内部创建了哪些实例对象以及如何创建
  • 了解真正是哪个实例对象向 Master 注册以及如何注册

 

什么是 Spark 的天堂之门

  1. Spark 程序在运行的时候分为 Driver 和 Executor 两部分
  2. Spark 程序编写是基于 SparkContext 的,具体来说包含两方面
    1. Spark 编程的核心基础-RDD 是由 SparkContext 来最初创建的(第一个RDD一定是由 SparkContext 来创建的)
    2. Spark 程序的调度优化也是基于 SparkContext,首先进行调度优化。
  3. Spark 程序的注册时通过 SparkContext 实例化时生产的对象来完成的(其实是 SchedulerBackend 来注册程序)
  4. Spark 程序在运行的时候要通过 Cluster Manager 获取具体的计算资源,计算资源获取也是通过 SparkContext 产生的对象来申请的(其实是 SchedulerBackend 来获取计算资源的)
  5. SparkContext 崩溃或者结束的时候整个 Spark 程序也结束啦!

 

Spark 天堂之门到底在那里

运行一个程序,你会看见 SparkContext 从程序开始到结束都有它的身影,SparkContext 是 Spark 应用程序的核心呀!

[下图是一个 HelloWord 应用程序在 IDEA 中的运行状况]

 

Spark 天堂之门源码鉴赏

这次主要是看当提交Spark程序后,在 SparkContext 实例化的过程中,里面会创建多少个核心实例来为应用程序完成注冊,SparkContext 最主要的是实例化 TaskSchedulerImpl。

[下图是 SparkContext 在创建核心对象后的流程图]

  1. SparkContext 构建的顶级三大核心:DAGSchedulerTaskScheduler, SchedulerBackend,其中:
  • DAGScheduler 是面向 Job 的 Stage 的高层调度器;
  • TaskScheduler 是一个接口,是低层调度器,根据具体的 ClusterManager 的不同会有不同的实现,Standalone 模式下具体的实现 TaskSchedulerImpl; 
  • SchedulerBackend 是一个接口,根据具体的 ClusterManager 的不同会有不同的实现,Standalone 模式下具体的实现是SparkDeploySchedulerBackend
从整个程序运行的角度来讲,SparkContext 包含四大核心对象:DAGSchedulerTaskScheduler, SchedulerBackend, MapOutputTrackerMaster SparkDeploySchedulerBackend 有三大核心功能:
  • 负责向Master 連接连接注册当前程序 RegisterWithMaster
  • 接收集群中为当前应用程序而分配的计算资源 Executor 的注册并管理 Executors; 
  • 负责发送 Task 到具体的 Executor 執行

补充说明的是 SparkDeploySchedulerBackend 是被 TaskSchedulerImpl 来管理的!

创建 SparkContext 的核心对象
  • 程序一开始运行时会实例化 SparkContext 里的东西,所以不在方法里的成员都会被实例化!一开始实例化的时候第一个关键的代码是 createTaskScheduler,它是位于 SparkContext 的 Primary Constructor 中,当它实例化时会直接被调用,这个方法返回的是 taskScheduler 和 dagScheduler 的实例,然后基于这个内容又构建了 DAGScheduler,然后调用 taskScheduler 的 start( ) 方法,要先创建taskScheduler然后再创建 dagScheduler,因为taskScheduler是受dagScheduler管理的。
    [下图是 SparkContext.scala 中的创建 schedulerBackend 和 taskSchdulerImpl 的实例对象]
  • 调用 createTaskSchedule,这个方法创建了 TaskSchdulerImpl 和 SparkDeploySchedulerBackend,接受第一个参数是 SparkContext 对象本身,然后是字符串,(这也是平时传入 master 里的字符串)
    [下图是 HelloSpark.scala 中创建 SparkConf 和 SparkContext 的上下文信息]

    [下图是 SparkContext.scala 中的 createTaskScheduler 方法]
  • 它会判断一下你的 master 是什么然后具体进行不同的操作!假设我们是Spark 集群模式,它会:
    [下图是 SparkContext.scala 中的 SparkMasterRegex 静态对象]
  • 创建 TaskSchedulerImpl 实例然后把 SparkContext 传进去; 
  • 匹配集群中 master 的地址 e.g. spark:// 
  • 创建 SparkDeploySchedulerBackend 实例,然后把 taskScheduler (这里是 TaskSchedulerImpl)、SparkContext 和 master 地址信息传进去;
  • 调用 taskScheduler (这里是 TaskSchedulerImpl) 的 initialize 方法 最后返回 (SparkDeploySchedulerBackend, TaskSchedulerImpl) 的实例对象
  • SparkDeploySchedulerBackend 是被 TaskSchedulerImpl 来管理的,所以这里要首先把 scheduler 创建,然后把 scheduler 的实例传进去。
    [下图是 SparkContext.scala 中的调用模式匹配 SPARK_REGEX 的处理逻辑]
  • Task 默认失败后重新启动次数为 4 次
    [下图是 TaskSchedulerImpl.scala 中的类和主构造器的调用方法]

TaskSchedulerImpl.initialize( )方法是

  • 创建一个 Pool 来初定义资源分布的模式 Scheduling Mode,默认是 先进先出的 模式。

调用 taskScheduler 的 start( ) 方法

  • 在这个方法中再调用 backend (SparkDeploySchedulerBackend) 的 start( ) 方法。

  • 当通过 SparkDeploySchedulerBackend 注册程序给 Master 的时候会把以上的 command 提交给 Master 
CoarseGrainedExecutorBackend
  • Master 发指令给 Worker 去启动 Executor 所有的进程的时候加载的 Main 方法所在的入口类就是 command 中的CoarseGrainedExecutorBackend,当然你可以实现自己的 ExecutorBackend,在 CoarseGrainedExecutorBackend 中启动 Executor (Executor 是先注册在实例化),Executor 通过线程池并发执行 Task。

  • 这里调用了它的 run 方法


  • 注册成功后再实例化
SparkDeploySchedulerBackend 的 start 方法内幕
  • 然后创建一个很重要的对象,AppClient 对象,然后调用它的 client (AppClient) 的 start( ) 方法,创建一个 ClientEndpoint 对象。

  • 它是一个 RpcEndPoint,然后接下来的故事就是向 Master 注冊,首先调用自己的 onStart 方法
  • 然后再调用 registerWithMaster 方法
  • 从 registerWithMaster 调用 tryRegisterAllMasters,开一条新的线程来注册,然后发送一条信息(RegisterApplication 的case class ) 给 Master,注册是通过 Thread 来完成的。


    ApplicationDescription 的 case class
Master 接受程序的注冊
  • Master 收到了这个信息便开始注册,注册后最后再次调用 schedule( ) 方法
     

 

总结

SparkContext 开启了天堂之门:Spark 程序是通过 SparkContext 发布到 Spark集群的SparkContext 导演了天堂世界:Spark 程序运行都是在 SparkContext 为核心的调度器的指挥下进行的:SparkContext 关闭了天堂之门:SparkContext 崩溃或者结束的是偶整个 Spark 程序也结束啦!

 

程序提交整体流程如下图:

 

 

转载于:https://www.cnblogs.com/sky-sql/p/9078660.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/465911.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言,使用union了解内存

今天一个读者朋友给我发的一段代码,这段代码让他有了疑惑。代码如下:#include "stdio.h" int main() {typedef union{short i;char j[2];}DATA;DATA a;a.j[0] 10;a.j[1] 1;printf("%x\n",a.i);return 0; }他的几个测试代码以及输出…

我做技术的这十年,我不做技术的这一年~

我和明哥认识是因为之前他在群里跟我们分享一件事情,当时因为明哥相信网上认识的一个朋友,说是要一起开发一个项目,结果他被骗了几万块钱。然后聊着聊着,我觉得明哥太实诚了,后面继续接触,知道他做的一些决…

每日一题(26)—— 无限循环的几种形式

嵌入式系统中经常要用到无限循环,你怎么样用C编写死循环呢? 1、while(1) { } —— 个人推荐使用 2、for(;;) { } —— 这个实现方式让我为难,因为这个语法没有确切表达到底怎么回事。 3、goto Loop: ... goto Loop; —— 应试者如给…

Oracle Golden Gate概要

Oracle GoldenGate简介 Oracle Golden Gate用于源数据库与目标数据库的数据复制备份;可以在异构的环境(各种操作系统和数据库)之间实现数据亚秒级的实时复制备份;以及可以在实时数据仓库、数据同步、集中/分发、容灾、数 据库升级和迁移等多个场景下应用…

android 音频加载hal so调试

1. 整个加载流程图 2. 加载hal so的代码位置 2.1 在audiopolicymanager中的加载位置 diff --git a/frameworks/av/services/audiopolicy/managerdefault/AudioPolicyManager.cpp b/frameworks/av/services/audiopolicy/managerdefault/AudioPolicyManager.cpp index 632290a9…

【修炼5】《基础篇》别把项目成功当目标

副标题——做对的事情&#xff0c;远比你把事情做对&#xff0c;来的重要&#xff01;&#xff08;作者&#xff1a; 孙继滨&#xff09;<?xml:namespace prefix o />【项目经理之修炼】 全文索引给大家提一个问题&#xff1a;***************************************…

每日一题(27)—— define定义一个宏表明1年中有多少秒

用预处理指令#define 声明一个常数&#xff0c;用以表明1年中有多少秒&#xff08;忽略闰年问题&#xff09; 分析&#xff1a; 1、#define 语法的基本知识&#xff08;例如&#xff1a;不能以分号结束&#xff0c;括号的使用&#xff0c;等等&#xff09; 2、懂得预处理器将…

String,StringBuffer与StringBuilder的区别??

String,StringBuffer与StringBuilder的区别?? String 字符串常量StringBuffer 字符串变量&#xff08;线程安全&#xff09;StringBuilder 字符串变量&#xff08;非线程安全&#xff09; 简要的说&#xff0c; String 类型和 StringBuffer 类型的主要性能区别其实在于 Strin…

鸿蒙的路还很长

这是昨晚看到我的老领导发的和鸿蒙有关的文章&#xff0c;我在下面评论了&#xff0c;作为科技自媒体屌丝本屌&#xff0c;我昨晚也是看了鸿蒙2.0的发布会&#xff0c;也有一些观点。鸿蒙OS是什么&#xff1f;鸿蒙os是一个操作系统&#xff0c;而且是面向智能终端的&#xff0c…

有关Accordion组件的研究——Silverlight学习笔记[27]

Accordion组件在开发中常用于信息的分类显示。本文将为大家介绍该组件的特性以及通过一个实例讲述该组件的基本运用。组件所在命名控件&#xff1a;System.Windows.Controls组件常用方法&#xff1a;SelectAll&#xff1a;选择所有位于Accordion组件中的Accordion项。&#xff…

螺旋格式输出数据

螺旋格式输出数据 问题&#xff1a;(问答题) 编程输出以下格式的数据。 When i0 1 When i1 7 8 96 1 25 4 3 When i2 21 22 23 24 2520 7 8 9 1019 6 1 2 1118 5 4 3 1217 16 15 14 13 1、Python&#xff1a; def format_…

每日一题(28)—— 引用与指针的区别

引用与指针有什么区别&#xff1f; &#xff08;1&#xff09;引用必须被初始化&#xff0c;指针不必&#xff1b; &#xff08;2&#xff09;引用初始化以后不能被改变&#xff0c;指针可以&#xff1b; &#xff08;3&#xff09;不存在指向空值的引用&#xff0c;但是存在…

聊聊 top 命令中的 CPU 使用率

之前写过cpu占用率的文章CPU占用率是什么&#xff1f;平常我们使用 top 命令来查看系统的性能情况&#xff0c;在 top 命令中可以看到很多不同类型的 CPU 使用率&#xff0c;如下图红框中标出部分&#xff1a;下面&#xff0c;我们来介绍一下这些 CPU 使用率的意义&#xff1a;…

Linux 脚本、 正则表达式 等

shell的脚步总是以这样的一行开头&#xff1a;#!/bin/bash这行叫做shebang顺序执行两个命令&#xff0c;可以$cmd1;cmd2要验证脚本语法的准确性&#xff0c;可以用bask-nscriptfilename来验证如果要debug则为bash-xscr.sh删除老的文件&#xff1a;find /home/wwwroot -type f-m…

哈尔特征Haar

哈尔特征&#xff08;Haar-like features&#xff09; 是用于物体识别的一种数字图像特征。它们因为与哈尔小波转换 极为相似而得名&#xff0c;是第一种即时的人脸检测運算。 历史上&#xff0c;直接使用图像的强度(就是图像每一个像素点的RGB值)使得特征的计算强度很大。帕帕…

乐鑫科技2022笔试面试题

来源于读者投稿&#xff0c;作者来源于牛客网的 galun 。投递方式&#xff1a;内推。岗位&#xff1a;嵌入式软件实习生。个人情况&#xff1a;本科双非电子信息工程&#xff0c;硕士华五软件工程研一在读&#xff1b;本科做过一些很水的项目 &#xff0c;也拿项目搞了一些奖&a…

每日一题(29)—— 如何引用一个已经定义过的全局变量

如何引用一个已经定义过的全局变量&#xff1f; extern关键字 可以用引用头文件的方式&#xff0c;也可以用extern关键字&#xff0c;如果用引用头文件方式来引用某个在头文件中声明的全局变理&#xff0c;假定你将那个变写错了&#xff0c;那么在编译期间会报错&#xff0c;如…

Tcpdump的使用

tcpdump采用命令行方式&#xff0c;它的命令格式为&#xff1a;tcpdump [ -adeflnNOpqStvx ] [ -c 数量 ] [ -F 文件名 ][ -i 网络接口 ] [ -r 文件名] [ -s snaplen ][ -T 类型 ] [ -w 文件名 ] [表达式 ] 1. tcpdump的选项介绍   -a    将网络地址和广播地址转变成名字…

同事在RTOS临界区嵌套使用栽了跟头~

1裸机与RTOS的理解首先这里只针对单核CPU架构的芯片展开讨论&#xff0c;大部分是MCU吧&#xff0c;而多核CPU的讨论相对比较复杂&#xff0c;暂不涉及~玩RTOS的朋友都知道&#xff0c;裸机与OS的最大区别就是实现多任务的并发&#xff0c;其实你说裸机就不能实现任务的并发吗 …

每日一题(30)—— 局部变量能否和全局变量重名?

局部变量能否和全局变量重名&#xff1f; 答&#xff1a;能&#xff0c;局部会屏蔽全局。要用全局变量&#xff0c;需要使用"::" 局部变量可以与全局变量同名&#xff0c;在函数内引用这个变量时&#xff0c;会用到同名的局部变量&#xff0c;而不会用到全局变量。对…