Spark 独立部署模式

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

Spark 独立部署模式 博客分类: spark  

除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在单个机器上进行测试。

安装 Spark 独立集群

部署Spark最简单的方法就是运行./make-distribution.sh 脚本来创建一个2进制发行版.这个版本能部署在任意运行这java的机子上,不需要安装 Scala.

建议的步棸是先在一个节点部署并启动master,获得 master spark URL,在dist/这个目录下修改conf/spark-env.sh然后再部署到其他的节点上。

手动启动集群

通过如下命令启动单独模式的master服务:

./bin/start-master.sh

一旦启动,master就会输出spark://IP:PORT以提示连接 workers 的方式。也可以通过参数“master”给SparkContext来连接集群的作业.你可以在master的web管理界面上看到这样的地址,默认是http://localhost:8080.

同样,你可以启动一个或者多个worker,通过下面的语句使之和master建立连接:

./spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

启动一个worker后,查看 master的 web管理界面 (默认http://localhost:8080),上面列出了新近加入的节点的CPU和内存的信息。(不包括给操作系统预留的内存空间)。

最后,以下 master 和 worker的一些配置选项:

-i IP,--ip IP要监听的IP地址或者 DNS 机器名
-p PORT,--port PORT要监听的端口 (默认: master 7077 ;worker随机)
--webui-port PORTweb UI端口 (默认: master 8080, worker 8081)
-c CORES,--cores CORES

作业可用的CPU内核数量(默认: 所有可用);只在worker上

-m MEM,--memory MEM作业可使用的内存容量,默认格式1000M或者 2G (默认:  所有RAM去掉给操作系统用的1 GB); 只在worker上。
-d DIR,--work-dir DIR

伸缩空间和日志输入的目录路径

(默认: SPARK_HOME/work); 只在worker上

集群启动脚本

通过脚本启动 Spark独立集群时, 需要在Spark 目录下创建一个文件 conf/slaves, 列出所有启动的的Spark workers的主机名,每行一条记录. Master必须能够实现通过ssh(使用私钥)访问worker机器,可以使用ssh localhost来测试。

一旦你建立了这个档案,你可以通过以下脚本停止或启动集群, 这些脚本基于 Hadoop’s 部署脚本, 在SPARK_HOME/bin目录:

  • bin/start-master.sh-在机器上执行脚本,启动 master .
  • bin/start-slaves.sh- 启动conf/slaves中指定的每一个slave .
  • bin/start-all.sh- 同时启动master 以及 上面所说文件中指定的slave
  • bin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • bin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • bin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave

注意:只能在运行Spark的master主机上执行上述脚本,而不是你的本地机器。

你可以通过conf/spark-env.sh进一步配置整个集群的环境变量。这个文件可以用conf/spark-env.sh.template当模版复制生成。然后,复制到所有的worker机器上才奏效。下面给出一些可选的参数以及含义:

SPARK_MASTER_IP绑定一个外部IP给master.
SPARK_MASTER_PORT从另外一个端口启动master(默认: 7077)
SPARK_MASTER_WEBUI_PORTMaster的web UI端口 (默认: 8080)
SPARK_WORKER_PORT启动Spark worker 的专用端口(默认:随机)
SPARK_WORKER_DIR伸缩空间和日志输入的目录路径(默认: SPARK_HOME/work);
SPARK_WORKER_CORES作业可用的CPU内核数量(默认: 所有可用的);
SPARK_WORKER_MEMORY作业可使用的内存容量,默认格式1000M或者 2G (默认:  所有RAM去掉给操作系统用的1 GB);注意:每个作业自己的内存空间由SPARK_MEM决定。
SPARK_WORKER_WEBUI_PORTworker 的web UI 启动端口(默认: 8081)
SPARK_WORKER_INSTANCES没太机器上运行worker数量 (默认: 1). 当你有一个非常强大的计算机的时候和需要多个Spark worker进程的时候你可以修改这个默认值大于1 . 如果你设置了这个值。要确保SPARK_WORKER_CORE 明确限制每一个r worker的核心数, 否则每个worker 将尝试使用所有的核心
SPARK_DAEMON_MEMORY分配给Spark master和 worker 守护进程的内存空间 (默认: 512m)
SPARK_DAEMON_JAVA_OPTSSpark master 和 worker守护进程的JVM 选项(默认: none)

注意: 启动脚本目前不支持Windows。要运行一个Spark 集群在Windows上,手动启动master 和 workers 

集群连接应用程序

在Spark 集群上运行一个应用,只需通过master的 spark://IP:PORT 链接传递到SparkContext构造器

在集群上运行交互式的Spark 命令, 运行如下命令:

MASTER=spark://IP:PORT ./spark-shell

注意,如果你在一个 spark集群上运行了spark-shell脚本,spark-shell 将通过在conf/spark-env.sh下的SPARK_MASTER_IP和SPARK_MASTER_PORT自动设置MASTER .

你也可以传递一个参数-c <numCores> 来控制 spark-shell 在集群上使用的核心数量

资源调度

单独部署模式目前只支持FIFO作业调度策略。不过,为了允许多并发执行,你可以控制每一个应用可获得资源的最大值。默认情况下,如果系统中只运行一个应用,它就会获得所有资源。使用类似System.setProperty("spark.cores.max","10")的语句可以获得内核的数量。这个数值在初始化SparkContext之前必须设置好。

监控和日志

Spark单独部署模式提供了一个基于WEB的集群监视器。master和每一个worker都会有一个WEB UI来显示集群的统计信息。默认情况下,可以通过8080端口访问master的WEB UI。当然也可以通过配置文件或者命令来修改这个端口值。

另外,每个slave节点上作业运行的日志也会详细的记录到默认的SPARK_HOME/work目录下。每个作业会对应两个文件,stdout和stderr,包含了控制台上的所有的历史输出。

和Hadoop同时运行

Spark 作为一个独立的服务,可以和现有的Hadoop集群同时运行。 通过hdfs:// URL,Spark可以访问hadoop集群的HDFS上的数据。(比如地址可以写成hdfs://<namenode>:9000/path,从Namenode的web UI可以获得更确切的URL).或者,专门为Spark搭建一个集群,通过网络访问其他HDFS上的数据,这样肯定不如访问本地数据速度快,除非是都在同一个局域网内。(比如几台Spark机器和Hadoop集群在同一机架上)。

 

 

 

http://blog.csdn.net/zajin/article/details/12781097

转载于:https://my.oschina.net/xiaominmin/blog/1599590

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring boot 1.5.4 定时任务和异步调用(十)

1 Spring Boot定时任务和异步调用 我们在编写Spring Boot应用中经常会遇到这样的场景&#xff0c;比如&#xff1a;我需要定时地发送一些短信、邮件之类的操作&#xff0c;也可能会定时地检查和监控一些标志、参数等。 spring boot定时任务spring-boot-jsp项目源码&#…

MySQL左连接还有过滤条件_MySQL左连接问题,右表做筛选,左表列依然在?

问 题原料两张表&#xff0c;一张user表&#xff0c;一张user_log表(这个例子举的不好)CREATE TABLE user (id int(11) NOT NULL AUTO_INCREMENT,name varchar(20) DEFAULT NULL,PRIMARY KEY (id)) ENGINEInnoDB DEFAULT CHARSETutf8;CREATE TABLE user_log (id int(10) NOT NU…

你真的了解iOS怎么取属性的吗?

你真的了解iOS怎么取属性的吗&#xff1f; 本文来自CocoaChina粉丝FlyOceanFish投稿如果iOS中谈到取属性&#xff0c;相信大家都会夸夸其谈&#xff0c;不就是get方法吗&#xff1f;或者大谈kvc取属性的机制。不得不说这些也是对的。这时大家可能就疑惑了&#xff0c;那你还要说…

10年老兵给程序员的10条建议!

2019独角兽企业重金招聘Python工程师标准>>> 程序员虽然薪资待遇好&#xff0c;但是也得付出努力&#xff0c;技术好才行。特别是对于刚刚进入编程工作的新手程序员和正在学习编程的同学来说&#xff0c;一写代码就报错&#xff0c;出bug。作为一个工作了10年的老兵…

2017阿里技术年度精选(全)

2019独角兽企业重金招聘Python工程师标准>>> 2017年&#xff0c;在技术发展的历史上&#xff0c;一定是个特别的一年&#xff1a;柯洁与AlphaGo的惊世大战&#xff0c;无人咖啡店开放体验&#xff0c;AI设计师“鲁班”横空出世、三年投入千亿的达摩院正式成立…… 这…

查询Oracle正在执行的sql语句,锁表,解锁

原文出处&#xff1a;http://blog.csdn.net/jlds123/article/details/6572559 ----------------------- --查询Oracle正在执行的sql语句及执行该语句的用户 [sql] view plaincopy SELECT b.sid oracleID, b.username 登录Oracle用户名, b.serial#, …

xampp for mac mysql_xampp for mac下载-Xampp Mac版下载 V7.3.2-PC6苹果网

Xampp for mac是目前时下最流行的PHP开发环境&#xff0c;XAMPP是完全免费且易于安装的Apache发行版&#xff0c;其中包含MySQL、PHP和Perl。XAMPP开放源码包的设置让安装和使用出奇容易。整合型的Apache套件。XAMPP包括Apache、MySQL、PHP、PERL&#xff0c;直接解压缩&#x…

15.2. important

<para><important>Text goes here.</important></para>重要Text goes here.原文出处&#xff1a;Netkiller 系列 手札 本文作者&#xff1a;陈景峯 转载请与作者联系&#xff0c;同时请务必标明文章原始出处和作者信息及本声明。

linux python2.7 scipy_scipy.sparse.linalg.sp为Linux系统上的大型稀疏矩阵解决了令人惊讶的行为...

我正在计算一个线性系统Ax b的解决方案&#xff0c;其中A具有一个大的(通常200,000行和相关的密集矩阵的列)稀疏矩阵和ba稀疏矩阵&#xff0c;大约100列。当我在Windows系统上运行代码(Python2.7&#xff0c;scipy0.14.0)时&#xff0c;以下命令fromscipy.sparse.linalgimport…

简简单单的代码让你轻松学会 动态代理

原文出处&#xff1a;http://weixiaolu.iteye.com/blog/1477774 -------------------------------------------------------------------------- 简简单单的代码让你轻松学会动态代理 前言&#xff1a; 最近一直在分析hadoop的RPC机制。在hadoop中&#xff0c;DataNode和Na…

Adobe软件打开后设置默认页面方式和默认鼠标方式

PDF文件打开后是默认显示&#xff0c;与显示器比例不协调&#xff0c;或大或小&#xff0c;总是需要手动调节阅读方式&#xff0c;解决方法如下&#xff1a; Adobe软件中可以设置默认页面方式&#xff0c;具体步骤如下&#xff1a; 编辑 (Edit)-首选项(Preferences)-辅助工具…

CSS深入理解学习笔记之vertical-align

1、vertical-align基本认识 支持的属性值&#xff1a; ①线类&#xff1a;baseline&#xff08;默认&#xff09;&#xff0c;top&#xff0c;middle&#xff0c;bottom ②文本类&#xff1a;text-top&#xff0c;text-bottom ③上标下标类&#xff1a;sub&#xff0c;super ④…

Java NIO原理 图文分析及代码实现

原文出处&#xff1a;http://weixiaolu.iteye.com/blog/1479656 ---------------------------------------------------------------------- Java NIO原理图文分析及代码实现 前言: 最近在分析hadoop的RPC(Remote Procedure Call Protocol &#xff0c;远程过程调用协议&am…

威纶通触摸屏与mysql_威纶触摸屏应用实例 以及威纶通触摸屏配方组合

在生产车间&#xff0c;每台设备运作起来都会有各自的组合参数&#xff0c;每台设备运作的时候产生的数据即构成配方表&#xff0c;每张配方表内可建立多组配方数据&#xff0c;这些多台机器的配方数据都可储存在人机里&#xff0c;以供控制器(PLC)执行相对应的任务。从“包装机…

分析师视角:2018年的数据中心3大预测

向数字业务平台的迁移促使基础设施和运营(I&O)领导者必须重新去思考他们的数据中心策略。像人工智能这样的数字业务平台&#xff0c;包括机器学习(ML)、深度神经网络(DNN)和物联网&#xff0c;对IT基础设施有敏捷和可伸缩性等方面的计算需求。在2018年&#xff0c;I&O领…

大数据实时处理:百分点实时计算架构和算法

原文&#xff1a;http://www.oschina.net/question/1459174_145255 百分点官网&#xff1a;http://www.baifendian.com/ ------------------以下正文---------------------- 当今时代&#xff0c;数据不再昂贵&#xff0c;但从海量数据中获取价值变得昂贵&#xff0c;而要及时…

ELK 日志处理开发指南

ELK 是 Elastic 公司出品的开源实时日志处理与分析解决方案&#xff0c;ELK 分别代表分布式搜索引擎 Elasticsearch、日志采集与解析工具 Logstash、日志可视化分析工具Kibana&#xff0c;具有配置方式灵活、集群可线性扩展、日志实时导入、检索性能高效、可视化分析方便等优点…

maven 国内私服

2019独角兽企业重金招聘Python工程师标准>>> <repositories> <repository> <id>aliyun-cache</id> <name>aliyun-cache</name> <url>http://maven.aliyun.com/nexus/content/groups/public&…

Mycat快速入门

1.Mycat介绍 Mycat 是一个开源的分布式数据库系统&#xff0c;是一个实现了 MySQL 协议的的Server&#xff0c;前端用户可以把它看作是一个数据库代理&#xff0c;用 MySQL 客户端工具和命令行访问&#xff0c;而其后端可以用MySQL 原生&#xff08;Native&#xff09;协议与多…

python字符串常量有什么区别_Python经典面试题:is与==的区别

is用于判断两个对象是否为同一个对象&#xff0c;具体来说是两个对象在内存中的位置是否相同。python为了提高效率&#xff0c;节省内存&#xff0c;在实现上大量使用了缓冲池技术和字符串intern技术。整数和字符串是不可变对象&#xff0c;也就意味着可以用来共享&#xff0c;…