SparkContext源码分析

SparkContext源码分析

粗略的说明一下SparkContext源码!
createTaskScheduler()针对不同的提交模式,执行不同的方法(local,standalone、yanr等)

standalone模式===》》创建一个TaskSchedulerImpl

1、       底层通过操作SchedulerBackend,针对不同种类的cluster(standalone、yarn。mesoso(亚马逊))调度task

2、       他也可以通过一个LoaclBackend,并且将isLocal设置为true,来在本地模式下工作

3、       他负责处理一下通用的逻辑,比如说决定多个job的调度顺序(FIFO),启动推测任务执行

4、       客户端首先应该调用它的initialize()方法和start()方法,然后通过runTasks()方法提交tasksets

创建SparkDeploySchedulerBackend()

initializer方法中创建一个Pool调度池,FIFO、FAIR

taskScher。start()方法=====》调用了一下SparkDeploySchedulerBackend的start方法

此时:val AppDesc = newApplicationDescription(sc.appName、maxCores,sc.executorMemory,command,appUIaddress)

创建一个ApplicationDescription,非常重要!它代表了当前执行的Application的一下情况,包括Application最大需要多少CPU core  每个slave上需要多大内存。

创建APPclient(Application与spark之间通信)

一个借口。

它负责接收一个spark master的url,以及一个ApplicationDescription,和一个集群事件的监听器,以及各种事件发生时,监听器的回调函数!

start()方法,创建一个clientActor

调用registerWithMaster()里面调用tryRegisterAllMasters(),里面去连接所有的master。

DAGScheduler:实现了面向stage的调度机制的高层次的调度层,他会为每一个job计算一个stage的DAG(有向无环图),追踪RDD和stage的输出是否被物化(写入磁盘或者内存等地方),并且寻找一个最少消耗(最优、最小)调度机制来运行job,他会将stage作为tasksets提交到底层的TaskScheduler上,来在集群上运行他们(task)。

除了处理stage的DAG,还负责决定运行每个task的最佳位置,基于当前的缓存状态,将这些最佳位置提交给底层的TaskSchedulerImpl,此外,他会处理由于shuffle输出文件丢失导致的失败,在这种情况下,旧的stage可能会被重新提交,一个stage内部的失败,如果不是由于shuffle文件丢失导致的,会被TaskScheduler处理,他会多次重复每一个task,知道最后实在不行,才会去取消整个stage。

SparkUI:jetty工具类。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/326090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这些Spring中的设计模式,你都知道吗?

转载自 这些Spring中的设计模式,你都知道吗? 设计模式作为工作学习中的枕边书,却时常处于勤说不用的尴尬境地,也不是我们时常忘记,只是一直没有记忆。 Spring作为业界的经典框架,无论是在架构设计方面&a…

第一章初识java

一、程序: 1.通常指完成某些事物的一种既定方式和过程。 2.计算机程序:为了让计算机执行某些操作或解决某个问题而编写的一系列有序指定的集合。 二、java可以做什么: 1.开发桌面应用程序 2.开发网页应用程序 三、技术平台 javaSE javaEE 四、…

如何移植.NET Framework项目至.NET Core?

公司的项目一直采用.NET框架来开发Web项目。目前基础类库均为.NET Framework 4.6.2版本。Caching, Logging,DependencyInjection,Configuration等基础设施相关的依赖库一直和官方保持同步,目前是1.1版本。.NET Core越来越趋于稳定&#xff0c…

历年安徽省二计算机考试题库,2010安徽省计算机等级考试试题 二级ACCESS最新考试试题库...

1、针式打印机术语中,24针是指( D )A、2424点阵 B、信号线插头有24针C、打印头内有2424根针 D、打印头内有24根针2、在下列存储器中,访问速度最快的是( C )A、硬盘存储器 B、软盘存储器C、半导体RAM(内存储器) D、磁带存储器3、在下列存储中,…

2016蓝桥杯省赛---java---A---8(取球博弈)

题目描述 思路分析 dfs 代码实现 package lanqiao;import java.util.Arrays; import java.util.Scanner;public class Main {public static int []n;public static void main(String[] args) {Scanner scanner new Scanner(System.in);nnew int[3];for (int i 0; i < 3…

SparkSQL 内置函数的使用(JAVA与Scala版本)

SparkSQL 内置函数的使用&#xff08;JAVA与Scala版本&#xff09; agg的使用&#xff08;根据时间&#xff0c;去重id相同&#xff0c;统计相同时间内的id个数&#xff09;Scala版本&#xff01; package com.bynear.Scalaimport org.apache.spark.sql.functions._ import org…

分布式统一配置平台-Disconf.Net

为了更好的解决分布式环境下多台服务实例的配置统一管理问题&#xff0c;本文提出了一套完整的分布式配置管理解决方案。结合.net项目具体情况&#xff0c;实现了配置发布的统一化&#xff0c;对配置进行持久化管理并对外提供restful接口&#xff0c;在此基础上&#xff0c;基于…

计算机软件录音注意事项,GOLDWAVE录音软件使用教程

很多朋友都有录音软件&#xff0c;但是软件功能不全&#xff0c;也不是专业的&#xff0c;所以现在我讲一个专业的软件&#xff0c;这个软件都是原创歌手比较常用的软件&#xff0c;现在我们来学习一下。这是该软件的界面&#xff0c;软件的名字叫做GOLDWAVE这款软件的功能很强…

第二章 变量、数据类型和运算符

一、变量&#xff1a; 1.根据数据类型在内存中分配一个合适的空间并给他命名&#xff0c;即“变量名” 2.将数据存储到这个空间中&#xff0c; 3.从空间中取出数据&#xff0c;可以使用变量名来获得。 二、java中的数据类型 数据类型&#xff1a; 1.数值类型 &#xff08;1&…

这些棘手的Java面试题,答案你都知道吗?

转载自 这些棘手的Java面试题&#xff0c;答案你都知道吗&#xff1f; 棘手的Java面试问题是那些有一些惊喜元素的问题。如果你试图用常识回答一个棘手的问题&#xff0c;你很可能会因为需要一些特定的知识而失败。大多数棘手的Java问题来自于令人困惑的概念&#xff0c;如函…

Spark SQL 开窗函数row_number的使用

Spark SQL 开窗函数row_number的使用 窗口函数 row_number即为分组取topN参考文本&#xff1a; 型号 类别 销售量/月小米,手机,250 华为,手机,450 苹果,手机,1000 三星,手机,2500 小米Pro,笔记本,1500 苹果Pro,笔记本,2000 …

2016蓝桥杯省赛---java---A---10(压缩转换)

题目描述 小明最近在研究压缩算法。 他知道&#xff0c;压缩的时候如果能够使得数值很小&#xff0c;就能通过熵编码得到较高的压缩比。 然而&#xff0c;要使数值很小是一个挑战。 最近&#xff0c;小明需要压缩一些正整数的序列&#xff0c;这些序列的特点是&#xff0c;后面…

jquery选择器案例分享

其中选择器都已经注释&#xff0c;需要测试哪个打开注释即可观察效果&#xff01;&#xff01; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title><script type"text/javascript" src"js/j…

量子计算机对人类长寿,科学家称“极端长寿”在未来几十年可能会达到新的里程碑...

原标题&#xff1a;科学家称“极端长寿”在未来几十年可能会达到新的里程碑 来源&#xff1a;cnBeta.COM据外媒报道&#xff0c;人们的平均寿命越来越长&#xff0c;而经历“极端长寿”的人的数量也同样在增加。尽管大多数人活不到100岁&#xff0c;但数据显示&#xff0c;在过…

.NET Framework 4.7发布,支持Windows 10创作者更新

微软刚刚发布了 .NET Framework 4.7&#xff0c;主要是带来了对 Windows 10 “创作者更新” 的支持&#xff0c;开发者们可以通过 Visual Studio 2017 进行最新版 .NET Framework 项目的开发。 .NET Framework 4.7 包含了以下几大改进&#xff1a; 加入对 Windows 10 表格应用…

Spark SQL 中UDF的讲解

Spark SQL 中UDF的讲解 User Define Function, 用户自定义函数,简称UDF,存在与很多组件中。 在使用Sparksql的人都遇到了Sparksql所支持的函数太少了的难处&#xff0c;除了最基本的函数&#xff0c;Sparksql所能支撑的函数很少&#xff0c;肯定不能满足正常的项目使用&#xf…

Redis面试总结

转载自 Redis面试总结 1、什么是Redis? Redis 是一个基于内存的高性能key-value数据库。 (有空再补充&#xff0c;有理解错误或不足欢迎指正) 2、Reids有哪些特点&#xff1f; Redis本质上是一个Key-Value类型的内存数据库&#xff0c;很像memcached&#xff0c;整个数据…

jquery动画与事件案例

代码都已经测试通过&#xff0c;直接打开注释即可看见效果&#xff01; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title><script src"js/jquery-1.8.3.js" type"text/javascript" c…

两路语音 两路计算机数据综合,脉冲编码调制解调实验摘要.doc

2012-2013 第二学期开放实验项目题  目&#xff1a;两路话音&#xff0b;两路计算机数据综合传输系统实验学生姓名专业名称&#xff1a;  电子信息工程指导教师&#xff1a;2013年 5月 20日脉冲编码调制解调实验实验原理(一)基本原理PCM 调制原理框图量化从数学上来看&…

2016蓝桥杯省赛---java---C---10(密码脱落)

题目描述 思路分析 将字符串反转&#xff0c;后寻找到最长子串&#xff0c;然后用字符串长度减去最长字串长度即可。 代码实现 package lanqiao;import java.util.Scanner;public class Main {static int min0,num0;static String str;public static void main(String[] arg…