Spark入门-了解Spark核心概念

在本文中我们将从Spark集群角度和程序应用的角度来对相关概念进行了解

1

一. 站在集群角度

1.1 Master

Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ResourceManager,主要功能:

  1. 监听 Worker,看 Worker 是否正常工作;
  2. Master 对 Worker、Application 等的管理(接收 Worker 的注册并管理所有的Worker,接收 Client 提交的 Application,调度等待的 Application 并向Worker 提交)。

1.2 Worker

Spark 特有资源调度系统的 Slave,有多个。每个 Slave 掌管着所在节点的资源信息,类似于 Yarn 框架中的 NodeManager,主要功能:

  1. 通过 RegisterWorker 注册到 Master;
  2. 定时发送心跳给 Master;
  3. 根据 Master 发送的 Application 配置进程环境,并启动 ExecutorBackend(执行 Task 所需的临时进程)

二. 站在应用程序角度

2.1 driver program(驱动程序)

每个 Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的 main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。
  驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中.

驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。

使用Scala初始化SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._val conf  = new SparkConf().setAppName("wordCount")
val sc = new SparkContext(conf)

2.2 executor(执行器)

SparkContext对象一旦成功连接到集群管理器, 就可以获取到集群中每个节点上的执行器(executor).
  执行器是一个进程(进程名: ExecutorBackend, 运行在 Worker 节点上), 用来执行计算和为应用程序存储数据.
  然后, Spark 会发送应用程序代码(比如:jar包)到每个执行器. 最后, SparkContext对象发送任务到执行器开始执行程序.
4

2.3 RDDs(Resilient Distributed Dataset) 弹性分布式数据集

一旦拥有了SparkContext对象, 就可以使用它来创建 RDD 了. 在前面的例子中, 我们调用sc.textFile(…)来创建了一个 RDD, 表示文件中的每一行文本. 我们可以对这些文本行运行各种各样的操作.

2.4 cluster managers(集群管理器)

为了在一个 Spark 集群上运行计算, SparkContext对象可以连接到几种集群管理器(Spark’s own standalone cluster manager, Mesos or YARN).
  集群管理器负责跨应用程序分配资源.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/535554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spark运行standalone集群模式

spark的集群主要有三种运行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone运行模式,并尝试搭建一个standalone集群 一、standalone模式 standalone模式,是spark自己实现的&#xf…

docker原理

a.更快速的支付和部署:开发者可以使用一个标准的镜像来构建一套开发容器 ,开发完成之后,运维人员可以直接使用这个容器来部署代码。 b.更高效的虚拟化: Docker容器的运行不需要额外的hypervisor支持,它是内核级的虚拟化,因此 可以实现更高的性能和效。 I 0c更轻松的迁移和扩展…

创造型模式——工厂模式

工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻辑,并且是通过使用一个共同的…

创造型模式——抽象工厂模式

抽象工厂模式(Abstract Factory Pattern)是围绕一个超级工厂创建其他工厂。该超级工厂又称为其他工厂的工厂。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 在抽象工厂模式中,接口是负责创建一个相关对象的…

Iptables防火墙原理

一、IPTABLES概念 iptables是隔离主机以及网络的工具,通过自己设定的规则以及处理动作对数据报文进行检测以及处理。从设备上分类,防火墙分为软件防火墙、硬件防火墙、芯片级防火墙。从技术上分类,防火墙分为数据包过滤型防火墙、应用代理型防火墙。这是因为四层模型的每一…

创造型模式——单例模式

单例模式(Singleton Pattern)是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 这种模式涉及到一个单一的类,该类负责创建自己的对象,同时确保只有单个对象被创建…

trap命令

trap命令用于指定在接收到信号后将要采取的行动,信号的信息前面已经提到。 trap 命令的一种常见用途是在脚本程序被中断时完成清理工作。 历史上,shell 总是用数字来代表信号,而新的脚本程字应该使用信号的名字,它们保存在用#include命令包含进来的signal.h头文件中,在使用…

创造型模式——建造者模式

建造者模式(Builder Pattern)使用多个简单的对象一步一步构建成一个复杂的对象。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 一个 Builder 类会一步一步构造最终的对象。该 Builder 类是独立于其他对象的。 一、介绍…

shell知识点

静态语言是编译型语言,强类型的语言 如C,C++,java(面向对象),C#, 动态语言是解释型语言,弱类型的语言,边解释边执行 ,需要解释器,解释器是用静态语言开发的如shell(面向过程), perl,asp,asp.net,php,python(面向对象) 脚本执行 1.…

创造性模式——原型模式

原型模式(Prototype Pattern)是用于创建重复的对象,同时又能保证性能。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 这种模式是实现了一个原型接口,该接口用于创建当前对象的克隆。当直接创建…

Consider defining a bean of type ‘java.lang.String‘ in your configuration

Consider defining a bean of type ‘java.lang.String’ in your configuration 总结了网上的几种解决方案: 1、多余的autowired 2、待实例化的类里必须有默认的构造方法(即没有参数的那种) Consider defining a bean of type ‘XXXX’ …

SpringBoot-探索回顾Spring框架本质

自始至终,SpringBoot框架都是为了能够帮助使用Spring框架的开发 快速高效地构建 一个个基于Spring框架以及Spring生态体系的应用解决方案。要深刻理解SpringBoot框架,首先我们需要深刻理解Spring框架。 一、Spring 中的 IoC、DI 和 DL 部分Java开发者对…

redis精解

概念Redis是完全开源免费的,遵守BSD协议,是-一个高性能的key-value数据库。它支持存储的value类型很多,包括string(字符串)、list(链表)、set(集合)、(Zset(有序集合),这些数据类型都支持。 push/pop、add/remove及 取交集和并集及更丰富的操作,Redis支持各种不同方式的排序)…

@SpringBootApplication揭秘

一、SpringBoot初体验 一个典型的SpringBoot应用长什么样子呢?如果我们使用http://start.spring.io/创建一个最简单的依赖Web模块的SpringBoot应用,一般情况下, 我们会得到一个SpringBoot应用的启动类,如下面代码所示&#xff1a…

SpringApplication:SpringBoot程序启动的一站式解决方案

我们说SpringBoot是Spring框架对“约定优先于配置(Convention Over Configuration)"理念的最佳实践的产物,一个典型的SpringBoot应用本质上其 实就是一个基于Spring框架的应用 如果非说SpringBoot微框架提供了点儿自己特有的东西,在核心类层面&…

了解spring-boot-starter

SpringBoot提供了针对日常企业应用研发各种场景的spring-boot-starter自动配置 依赖模块,如此多“开箱即用”的依赖模块,使得开发各种场景的Spring应用 更加快速和高效,本文会就几个常见的通用spring-boot-starter模块进行了解 一、约定优先于…

常用脚本

mysql状态收集 #! /bin/bash#mysql for zabbixUptime() {mysqladmin status I awk [print $2]}Slow_ queries() {mysqladmin status | awk [print $9]} ICom_ insert() {mysqladmin extended-status |awk /<Com_ insertl>/[print $4]}Com_ delete() {mysqladmi…

linux产生随机数方法

如果产生的数据长短格式不统一&#xff0c;使用md5sum命令&#xff0c;并使用cut截取相应位数echo $RANDOM openssl rand -base64 openssl rand -base64 10 date %s%N /dev/random设备&#xff0c;存储着系统当前运行的环境的实时数据。它可以看作是系统某个时候&#x…

oracle视图等

视图 视图是基于其他表或视图创建的逻辑表 视图不包含自己的数据&#xff0c;它基于的表称为基表 使用视图是为了: 限制对数据的访问 使复杂的查询简单化 提供数据的独立性 相同的数据展现不同的视图 不能删除行不能修改行不能添加行 --分组函数 - -GRoUP BY子句 -…

Java集合:关于 ArrayList 的内容盘点

本篇内容包括&#xff1a;ArrayList 概述、ArrayList 的扩容机制&#xff08;包含源码部分&#xff09;、如何在遍历 ArrayList 时正确的移除一个元素、ArrayList 的构造方法及常用方法、关于 Array 与 ArrayList 的区别、关于 CopyOnWriteArrayList、关于 Fail Fast 与 Fail S…