Spark运行流程及架构设计

  • spark中一个应用程序application会在任务控制节点上启动一个Driver程序,并且这个Driver程序会创建一个SparkContext对象(类似于mapreduce中的applicationManager)。该对象有三个任务,1是向资源管理器clusterManager注册(类似mapreduce中的resourcemanager),2是向资源管理器clusterManager申请运行资源,3是根据应用程序RDD间的依赖关系构建多个DAG对象(多个作业job,作业是Spark中实际执行的计算任务,而DAG则是表示这些计算任务执行计划的数据结构),通过DAG调度器得到多个阶段(任务集),再通过任务调度器得到多个任务。刚才SparkContex向资源管理器申请了资源,该资源不会直接分给SC,而是会直接分配资源给工作节点上的executor进程并启动该进程,executor进程同样两项任务,1是通过心跳告知资源管理器自己的运行状况(就像mapreduce中nodemanager会向resourcemanager报告自己的运行状况。),2是向sparkcontex申请任务并将执行结果返回给SC。
  • application构成:1个任务控制节点+n个工作job(DAG)
  • 运行架构:任务控制节点Driver、工作节点、进程executor、集群管理器clusterManager
  • 对以上内容总结如下:
  1. Driver程序和SparkContext
    • Spark应用程序确实会在任务控制节点(通常是集群中的某个节点)上启动一个Driver程序。
    • Driver程序会创建一个SparkContext对象,这是Spark应用程序的入口点。
  2. 注册与资源申请
    • SparkContext首先会向资源管理器(如YARN的ResourceManager或Spark Standalone的Master)注册,这样资源管理器就知道这个应用程序已经启动并且需要资源。
    • 接着,SparkContext会向资源管理器申请资源来启动Executor进程。这些资源通常包括CPU核数和内存大小。
  3. DAG(Directed Acyclic Graph)构建与调度
    • 根据应用程序中的RDD操作,Spark会构建一个或多个DAG(有向无环图),这些DAG表示了RDD之间的依赖关系。
    • DAG调度器(DAGScheduler)会将DAG切分成多个阶段(Stages),每个阶段包含一组可以并行执行的任务(Tasks)。
    • 任务调度器(TaskScheduler)会负责将任务分配给Executor进程来执行。
  4. Executor进程
    • Executor进程是在工作节点(Worker Nodes)上启动的,它们负责执行具体的计算任务。
    • Executor进程通过心跳(Heartbeat)机制与Driver程序通信,告知自己的状态,如资源使用情况、任务执行进度等。
    • Executor进程会向Driver程序请求任务,并在完成后将结果返回给Driver程序。

**一个应用程序通过单个SparkContext与集群交互,它向clustermanager申请资源后,资源管理器会启动n个工作结点上的多个executor进程,这些进程向sparkcontext申请任务来执行,这些任务来自不同的job的不同阶段,所以说job之间是并行计算的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/5736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库(MySQL)—— DQL语句(聚合,分组,排序,分页)

数据库(MySQL)—— DQL语句(聚合,分组,排序,分页) 聚合函数常见的聚合函数语法 分组查询语法 排序查询语法 分页查询语法 DQL的执行顺序 我们今天来继续学习MySQL的DQL语句的聚合和分组查询&…

c++容器与算法概述

容器与算法 每个标准库容器都提供了begin() end() 函数&#xff0c;分别返回容器的头部位置和尾部位置。 I/O 流 对于自定义的类型&#xff1a; struct Entry {std::string name;int number;};如果需要使用标准输出需要重载<< 运算符&#xff0c;特别注意&#xff1a…

《Redis使用手册之Lua脚本》

《Redis使用手册之Lua脚本》 EVAL&#xff1a;执行脚本 127.0.0.1:6379> eval “return ‘hello world’” 0 “hello world” 127.0.0.1:6379> eval “return redis.call(‘set’,KEYS[1],ARGV[1])” 1 “message” “hello world” OK 127.0.0.1:6379> get message…

「Pudding Monsters」Solution

简述题意 给定一个 n n n \times n nn 的棋盘&#xff0c;其中有 n n n 个棋子&#xff0c;每行每列恰好有一个棋子。 对于所有的 1 ≤ k ≤ n 1 \leq k \leq n 1≤k≤n&#xff0c;求有多少个 k k k \times k kk 的子棋盘中恰好有 k k k 个棋子&#xff0c;输出其总和…

Web3应用:DeFi是什么?有什么用?

Web3&#xff0c;也被称为第三代互联网&#xff0c;是基于区块链技术的去中心化网络。它旨在创建一个不依赖于中心化服务提供商的互联网&#xff0c;赋予用户更大的数据所有权和控制权。而DeFi&#xff0c;即去中心化金融&#xff08;Decentralized Finance&#xff09;&#x…

街道征迁项目档案管理系统

街道征迁项目档案管理系统是一个用于管理街道征迁项目档案的软件系统。该系统的主要功能包括档案录入、档案存储、档案检索、档案共享等。 系统的用户可以通过该系统录入征迁项目相关的档案信息&#xff0c;包括项目名称、征迁范围、土地面积、征迁补偿费用等。同时&#xff0c…

【设计模式】之模板方法模式

系列文章目录 【设计模式】之策略模式 【设计模式】之责任链模式 文章目录 系列文章目录 前言 一、什么是模板方法模式 定义 角色 二、为什么要使用模板方法模式 优点 缺点 三、案例 普通案例 模拟Servlet过程案例 总结 前言 今天给大家介绍23种设计模式中的模板方法模式&a…

Python基础学习之编辑器

大家好&#xff0c;今天我想和大家分享一下Python中一个非常强大且优雅的特性——装饰器&#xff08;Decorators&#xff09;。装饰器在Python中是一种高级语法&#xff0c;它允许你在不修改函数或类的情况下&#xff0c;为其添加额外的功能。这不仅让代码更加整洁&#xff0c;…

搭建Kafka源码环境并测试

文章目录 一、前言二、环境准备三、环境搭建3.1 JDK 环境搭建3.2 Scala 环境搭建3.2.1 配置 Scala 环境变量3.2.2 验证 3.3 Gradle 环境搭建3.3.1 配置 Gradle 环境变量3.3.2 验证 3.4 Zookeeper 环境搭建3.4.1 配置 Zookeeper 环境变量3.4.2 验证 3.5 Kafka 源码搭建3.5.1 导入…

CKEditor编辑器的简单使用方法,取值,赋值

先从官网下载包。CKEditor 4 - Download Latest Version. 一&#xff1a;在项目里引用JQ基础包和CK的JS包 <script src"/JS/jquery-3.4.1.js?v1.0"></script><script src"/ckeditor/ckeditor.js"></script> 二&#xff1a;在表…

Codeforces Round 942 (Div. 2) ----- A ----- F --- 题解

前情提要&#xff1a;因为数学水平原因&#xff0c;没法给出e的证明&#xff0c;因为我也是举例归类得出的结论&#xff0c;但是按理来说应该可以利用生成数函数证明 f题也是因为数学原因加上水平有限&#xff0c;我的理解可能有偏差。 目录 A. Contest Proposal&#xff1a…

CocoaPods:iOS项目依赖管理的利器

CocoaPods&#xff1a;iOS项目依赖管理的利器 一、引言 在iOS项目的开发过程中&#xff0c;我们经常需要集成各种第三方库来快速实现某些功能&#xff0c;如网络请求、UI组件、数据处理等。然而&#xff0c;手动管理这些第三方库的版本、依赖和更新是一个繁琐且容易出错的过程…

Linux内核常用调优参数

Linux内核常用调优参数 vi /etc/sysctl.conf net.core.rmem_default 256960 net.core.rmem_max 513920 net.core.wmem_default 256960 net.core.wmem_max 513920 net.core.netdev_max_backlog 2000 net.core.somaxconn 2048 net.core.optmem_max 81920 net.ipv4.tcp_m…

图像处理的一些操作(1)

图像处理 1.安装PIL&#xff0c;skimage库1.1导入skimage库中的oi模块和data模块 2.读取图像文件2.1读取图像文件2.2 以灰度模式读取图像2.3 查看示例图像的目录路径2.4 读取chelsea图片2.5 加载示例图片并保存2.6 获得加载图片的信息2.6.1 输出图片类型2.6.2 输出图片尺寸2.6.…

论文速递 | Operations Research 3月文章合集(上)

编者按 在本系列文章中&#xff0c;我们梳理了运筹学顶刊Operations Research在2024年3月份发布的18篇文章的基本信息&#xff0c;旨在帮助读者快速洞察领域新动态。本文为第一部分。 推荐文章1 ● 题目&#xff1a;Optimal Diagonal Preconditioning 最优对角预条件化 ● …

MySQL数据库练习(17)

schooldb库——utf8字符集——utf8_general_ci排序规则 81. DDL CREATE TABLE styles (id int(11) NOT NULL AUTO_INCREMENT COMMENT 自增ID,styleSys varchar(20) DEFAULT NULL COMMENT 系统类型(home:PC),styleName varchar(255) NOT NULL COMMENT 风格名称,styleAuthor va…

企业网站必看——企业级OV SSL证书详细介绍

组织验证&#xff08;Organization Validation&#xff0c;简称OV&#xff09;SSL证书作为网络安全解决方案的重要组成部分&#xff0c;通过提供中级的安全保障和增强的网站身份验证&#xff0c;有效提升了网站的安全级别与用户信赖度。本文将深入探讨OV SSL证书的工作原理、申…

SQL常用语句与事务介绍

文章目录 基本语法常见用法实用语句事务 基本语法 SELECT&#xff1a;用于从数据库表中检索数据。 语法&#xff1a;SELECT column1, column2, ... FROM table_name;INSERT INTO&#xff1a;用于向数据库表中插入新行。 语法&#xff1a;INSERT INTO table_name (column1, col…

面试:Spring(IOC、AOP、事务失效、循环引用、SpringMVC、SpringBoot的自动配置原理、Spring框架常见注解)

目录 一、Spring的单例Bean是否是线程安全的&#xff1f; 二、什么是AOP 1、介绍 &#xff08;1&#xff09;记录操作日志 &#xff08;2&#xff09;实现Spring中的事务 三、spring中事务失效的场景有哪些&#xff1f; 1、异常捕获处理 2、抛出检查异常 3、非public方…

nginx配置tcp长连接实现集群

注意&#xff1a;实际工程应该会用docker部署。 安装nginx sudo apt install libpcre3-dev zlib1g openssl -y wget https://nginx.org/download/nginx-1.26.0.tar.gz #安装到/home/gyl/workspace/mprpc/vendor/nginx-1.26.0下 tar xfzv nginx-1.26.0.tar.gz && cd n…