Spark 独立部署模式

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

Spark 独立部署模式 博客分类: spark  

除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在单个机器上进行测试。

安装 Spark 独立集群

部署Spark最简单的方法就是运行./make-distribution.sh 脚本来创建一个2进制发行版.这个版本能部署在任意运行这java的机子上,不需要安装 Scala.

建议的步棸是先在一个节点部署并启动master,获得 master spark URL,在dist/这个目录下修改conf/spark-env.sh然后再部署到其他的节点上。

手动启动集群

通过如下命令启动单独模式的master服务:

./bin/start-master.sh

一旦启动,master就会输出spark://IP:PORT以提示连接 workers 的方式。也可以通过参数“master”给SparkContext来连接集群的作业.你可以在master的web管理界面上看到这样的地址,默认是http://localhost:8080.

同样,你可以启动一个或者多个worker,通过下面的语句使之和master建立连接:

./spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

启动一个worker后,查看 master的 web管理界面 (默认http://localhost:8080),上面列出了新近加入的节点的CPU和内存的信息。(不包括给操作系统预留的内存空间)。

最后,以下 master 和 worker的一些配置选项:

-i IP,--ip IP要监听的IP地址或者 DNS 机器名
-p PORT,--port PORT要监听的端口 (默认: master 7077 ;worker随机)
--webui-port PORTweb UI端口 (默认: master 8080, worker 8081)
-c CORES,--cores CORES

作业可用的CPU内核数量(默认: 所有可用);只在worker上

-m MEM,--memory MEM作业可使用的内存容量,默认格式1000M或者 2G (默认:  所有RAM去掉给操作系统用的1 GB); 只在worker上。
-d DIR,--work-dir DIR

伸缩空间和日志输入的目录路径

(默认: SPARK_HOME/work); 只在worker上

集群启动脚本

通过脚本启动 Spark独立集群时, 需要在Spark 目录下创建一个文件 conf/slaves, 列出所有启动的的Spark workers的主机名,每行一条记录. Master必须能够实现通过ssh(使用私钥)访问worker机器,可以使用ssh localhost来测试。

一旦你建立了这个档案,你可以通过以下脚本停止或启动集群, 这些脚本基于 Hadoop’s 部署脚本, 在SPARK_HOME/bin目录:

  • bin/start-master.sh-在机器上执行脚本,启动 master .
  • bin/start-slaves.sh- 启动conf/slaves中指定的每一个slave .
  • bin/start-all.sh- 同时启动master 以及 上面所说文件中指定的slave
  • bin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • bin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • bin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave

注意:只能在运行Spark的master主机上执行上述脚本,而不是你的本地机器。

你可以通过conf/spark-env.sh进一步配置整个集群的环境变量。这个文件可以用conf/spark-env.sh.template当模版复制生成。然后,复制到所有的worker机器上才奏效。下面给出一些可选的参数以及含义:

SPARK_MASTER_IP绑定一个外部IP给master.
SPARK_MASTER_PORT从另外一个端口启动master(默认: 7077)
SPARK_MASTER_WEBUI_PORTMaster的web UI端口 (默认: 8080)
SPARK_WORKER_PORT启动Spark worker 的专用端口(默认:随机)
SPARK_WORKER_DIR伸缩空间和日志输入的目录路径(默认: SPARK_HOME/work);
SPARK_WORKER_CORES作业可用的CPU内核数量(默认: 所有可用的);
SPARK_WORKER_MEMORY作业可使用的内存容量,默认格式1000M或者 2G (默认:  所有RAM去掉给操作系统用的1 GB);注意:每个作业自己的内存空间由SPARK_MEM决定。
SPARK_WORKER_WEBUI_PORTworker 的web UI 启动端口(默认: 8081)
SPARK_WORKER_INSTANCES没太机器上运行worker数量 (默认: 1). 当你有一个非常强大的计算机的时候和需要多个Spark worker进程的时候你可以修改这个默认值大于1 . 如果你设置了这个值。要确保SPARK_WORKER_CORE 明确限制每一个r worker的核心数, 否则每个worker 将尝试使用所有的核心
SPARK_DAEMON_MEMORY分配给Spark master和 worker 守护进程的内存空间 (默认: 512m)
SPARK_DAEMON_JAVA_OPTSSpark master 和 worker守护进程的JVM 选项(默认: none)

注意: 启动脚本目前不支持Windows。要运行一个Spark 集群在Windows上,手动启动master 和 workers 

集群连接应用程序

在Spark 集群上运行一个应用,只需通过master的 spark://IP:PORT 链接传递到SparkContext构造器

在集群上运行交互式的Spark 命令, 运行如下命令:

MASTER=spark://IP:PORT ./spark-shell

注意,如果你在一个 spark集群上运行了spark-shell脚本,spark-shell 将通过在conf/spark-env.sh下的SPARK_MASTER_IP和SPARK_MASTER_PORT自动设置MASTER .

你也可以传递一个参数-c <numCores> 来控制 spark-shell 在集群上使用的核心数量

资源调度

单独部署模式目前只支持FIFO作业调度策略。不过,为了允许多并发执行,你可以控制每一个应用可获得资源的最大值。默认情况下,如果系统中只运行一个应用,它就会获得所有资源。使用类似System.setProperty("spark.cores.max","10")的语句可以获得内核的数量。这个数值在初始化SparkContext之前必须设置好。

监控和日志

Spark单独部署模式提供了一个基于WEB的集群监视器。master和每一个worker都会有一个WEB UI来显示集群的统计信息。默认情况下,可以通过8080端口访问master的WEB UI。当然也可以通过配置文件或者命令来修改这个端口值。

另外,每个slave节点上作业运行的日志也会详细的记录到默认的SPARK_HOME/work目录下。每个作业会对应两个文件,stdout和stderr,包含了控制台上的所有的历史输出。

和Hadoop同时运行

Spark 作为一个独立的服务,可以和现有的Hadoop集群同时运行。 通过hdfs:// URL,Spark可以访问hadoop集群的HDFS上的数据。(比如地址可以写成hdfs://<namenode>:9000/path,从Namenode的web UI可以获得更确切的URL).或者,专门为Spark搭建一个集群,通过网络访问其他HDFS上的数据,这样肯定不如访问本地数据速度快,除非是都在同一个局域网内。(比如几台Spark机器和Hadoop集群在同一机架上)。

 

 

 

http://blog.csdn.net/zajin/article/details/12781097

转载于:https://my.oschina.net/xiaominmin/blog/1599590

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql数据库的链接地址_常用数据库连接URL地址大全

1、Oracle8/8i/9i数据库(thin模式) Class.forName("oracle.jdbc.driver.OracleDriver").newInstance(); String url="jdbc:oracle:thin:@localhost:1521:orcl"; //orcl为数据库的SID String user="test"; String password="test"; Con…

数据库中where与having区别~~~

1、where和having的执行级别不同 在查询过程中聚合语句(sum,min,max,avg,count)要比having子句优先执行.而where子句在查询过程中执行优先级别优先于聚合语句(sum,min,max,avg,count)。 having就是来弥补where在分组数据判断时的不足。因为where执行优先级别要快于聚合语句。…

spring boot 1.5.4 定时任务和异步调用(十)

1 Spring Boot定时任务和异步调用 我们在编写Spring Boot应用中经常会遇到这样的场景&#xff0c;比如&#xff1a;我需要定时地发送一些短信、邮件之类的操作&#xff0c;也可能会定时地检查和监控一些标志、参数等。 spring boot定时任务spring-boot-jsp项目源码&#…

ORA-04063: view DAILY.TMP_TBX_100_0_S4 有错误

执行&#xff1a; CREATE TABLE TMP_TBX_100_0_S3 AS SELECT t.* FROM (select t1.*,NULL AS sdate, NULL AS report_id from TMP_TBX_100_0_S4_1 t1 union all select t2.* from TMP_TBX_100_0_S4_2 t2) t 报错&#xff1a; ORA-00955: name is already used by an exis…

MySQL左连接还有过滤条件_MySQL左连接问题,右表做筛选,左表列依然在?

问 题原料两张表&#xff0c;一张user表&#xff0c;一张user_log表(这个例子举的不好)CREATE TABLE user (id int(11) NOT NULL AUTO_INCREMENT,name varchar(20) DEFAULT NULL,PRIMARY KEY (id)) ENGINEInnoDB DEFAULT CHARSETutf8;CREATE TABLE user_log (id int(10) NOT NU…

2017工作总结

静儿总结自己的职业生涯分为三个阶段。第一个阶段为期十年&#xff0c;是纯技术阶段&#xff0c;是人生的积累期。第二个阶段是管理阶段&#xff0c;是综合能力整合期。第三个阶段是突破阶段&#xff0c;打造自己独特的核心竞争力。 第一阶段 刚毕业的同学可能会觉得技术高大上…

批量删除table或view

一个个删太费时了。一个简单可行的方法。 思路&#xff1a; 找出要删除的表名/视图名&#xff0c;然后拼接删除sql&#xff0c;执行。 批量删除表&#xff1a; 1、找出要删除的表名select table_name from user_tables where table_name like S1MSGLATENCY_2016032%;2、复制这…

编译安装mysql5.5.39_编译安装MySQL5.5

防伪码&#xff1a;没有相当程度的孤独是不可能有内心的平和。1、测试环境主机名IP系统MySQL版本MySQL-00192.168.10.23CentOS release 6.9 (Final)5.5.562、部署2.1 卸载之前版本rpm -qa|grep mysqlrpm -e --nodeps mysql-libs-5.1.73-8.el6_8.x86_642.2 安装依赖包和cmakeyum…

你真的了解iOS怎么取属性的吗?

你真的了解iOS怎么取属性的吗&#xff1f; 本文来自CocoaChina粉丝FlyOceanFish投稿如果iOS中谈到取属性&#xff0c;相信大家都会夸夸其谈&#xff0c;不就是get方法吗&#xff1f;或者大谈kvc取属性的机制。不得不说这些也是对的。这时大家可能就疑惑了&#xff0c;那你还要说…

Oracle表的并行度

查看dba_tables数据字典时&#xff0c;可以发现有“DEGREE”字段&#xff0c;这个字段表示的就是数据表的并行度。这个参数的设置&#xff0c;关系着数据库的I/O&#xff0c;以及sql的执行效率。并行度的优点就是能够最大限度的利用机器的多个cpu资源&#xff0c;是多个cpu同时…

mysql 临时表 限制_Mysql临时表

当你创建临时表的时候&#xff0c;你可以使用temporary关键字。如&#xff1a;create temporary table tmp_table(name varchar(10) not null,passwd char(6) not null)‘或CREATE TEMPORARY TABLE IF NOT EXISTS sp_output_tmp ENGINE MEMORY SELECT …from … where IDcurre…

10年老兵给程序员的10条建议!

2019独角兽企业重金招聘Python工程师标准>>> 程序员虽然薪资待遇好&#xff0c;但是也得付出努力&#xff0c;技术好才行。特别是对于刚刚进入编程工作的新手程序员和正在学习编程的同学来说&#xff0c;一写代码就报错&#xff0c;出bug。作为一个工作了10年的老兵…

视图和表的区别和联系

区别&#xff1a; 1、视图是已经编译好的sql语句。而表不是 2、视图没有实际的物理记录。而表有。 3、表是内容&#xff0c;视图是窗口 4、表只用物理空间而视图不占用物理空间&#xff0c;视图只是逻辑概念的存在&#xff0c;表可以及时四对它进行修改&#xf…

mysql binlog日志三种格式_MySQL binlog三种格式详细介绍

查看当前数据库binlog日志格式&#xff1a;show global variables like %binlog_format%;一、三种格式介绍1.1 STATEMENT该格式下每一条会修改数据的sql都会记录在binlog中&#xff1b;优点&#xff1a;不需要记录每一行的变化&#xff0c;减少了binlog日志量&#xff0c;节约了…

2017阿里技术年度精选(全)

2019独角兽企业重金招聘Python工程师标准>>> 2017年&#xff0c;在技术发展的历史上&#xff0c;一定是个特别的一年&#xff1a;柯洁与AlphaGo的惊世大战&#xff0c;无人咖啡店开放体验&#xff0c;AI设计师“鲁班”横空出世、三年投入千亿的达摩院正式成立…… 这…

查询Oracle正在执行的sql语句,锁表,解锁

原文出处&#xff1a;http://blog.csdn.net/jlds123/article/details/6572559 ----------------------- --查询Oracle正在执行的sql语句及执行该语句的用户 [sql] view plaincopy SELECT b.sid oracleID, b.username 登录Oracle用户名, b.serial#, …

xampp for mac mysql_xampp for mac下载-Xampp Mac版下载 V7.3.2-PC6苹果网

Xampp for mac是目前时下最流行的PHP开发环境&#xff0c;XAMPP是完全免费且易于安装的Apache发行版&#xff0c;其中包含MySQL、PHP和Perl。XAMPP开放源码包的设置让安装和使用出奇容易。整合型的Apache套件。XAMPP包括Apache、MySQL、PHP、PERL&#xff0c;直接解压缩&#x…

15.2. important

<para><important>Text goes here.</important></para>重要Text goes here.原文出处&#xff1a;Netkiller 系列 手札 本文作者&#xff1a;陈景峯 转载请与作者联系&#xff0c;同时请务必标明文章原始出处和作者信息及本声明。

查看表的创建时间

select OWNER,OBJECT_NAME,CREATED from dba_objects where OBJECT_NAME表名 CREATED 是表的创建时间 查询 dba_objects 表需要dba权限

linux python2.7 scipy_scipy.sparse.linalg.sp为Linux系统上的大型稀疏矩阵解决了令人惊讶的行为...

我正在计算一个线性系统Ax b的解决方案&#xff0c;其中A具有一个大的(通常200,000行和相关的密集矩阵的列)稀疏矩阵和ba稀疏矩阵&#xff0c;大约100列。当我在Windows系统上运行代码(Python2.7&#xff0c;scipy0.14.0)时&#xff0c;以下命令fromscipy.sparse.linalgimport…