linux搭建spark集群,详解Spark+Zookeeper搭建高可用Spark集群

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎;现在形成一个高速发展应用广泛的生态系统。

Spark三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,详情参考。

Spark standalone模式分布式部署

faef6ac474297266b66e0dd81b578fdc.png

环境介绍

主机名 应用

tvm11 zookeeper

tvm12 zookeeper

tvm13 zookeeper、spark(master)、spark(slave)、Scala

tvm14 spark(backup)、spark(slave)、Scala

tvm15 spark(slave)、Scala

说明

依赖scala:

Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0. Support for Scala 2.11 is deprecated as of Spark 2.4.1 and will be removed in Spark 3.0.

zookeeper: Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用,配置方案比较简单。

安装scala

由上面的说明可知,spark对scala版本依赖较为严格,spark-2.4.5依赖scala-2.12.x,所以首先要安装scala-2.12.x,在此选用scala-2.12.10。使用二进制安装:

$ wget https://downloads.lightbend.com/scala/2.12.10/scala-2.12.10.tgz

$ tar zxvf scala-2.12.10.tgz -C /path/to/scala_install_dir

如果系统环境也要使用相同版本的scala,可以将其加入到用户环境变量(.bashrc或.bash_profile)。

安装spark

打通三台spark机器的work用户ssh通道;

现在安装包到master机器:tvm13;

注意提示信息,及Hadoop版本(与已有环境匹配,如果不匹配则选非预编译的版本自己编译)。

50398bc70faa007a7fad6a9dcfa641da.png

解压到安装目录即可。

配置spark

spark服务配置文件主要有两个:spark-env.sh和slaves。

spark-evn.sh:配置spark运行相关环境变量

slaves:指定worker服务器

配置spark-env.sh:cp spark-env.sh.template spark-env.sh

export JAVA_HOME=/data/template/j/java/jdk1.8.0_201

export SCALA_HOME=/data/template/s/scala/scala-2.12.10

export SPARK_WORKER_MEMORY=2048m

export SPARK_WORKER_CORES=2

export SPARK_WORKER_INSTANCES=2

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=tvm11:2181,tvm12:2181,tvm13:2181 -Dspark.deploy.zookeeper.dir=/data/template/s/spark"

# 关于 SPARK_DAEMON_JAVA_OPTS 参数含义:

# -Dspark.deploy.recoverMode=ZOOKEEPER #代表发生故障使用zookeeper服务

# -Dspark.depoly.zookeeper.url=master.hadoop,slave1.hadoop,slave1.hadoop #主机名的名字

# -Dspark.deploy.zookeeper.dir=/spark #spark要在zookeeper上写数据时的保存目录

# 其他参数含义:https://blog.csdn.net/u010199356/article/details/89056304

配置slaves:cp slaves.template slaves

# A Spark Worker will be started on each of the machines listed below.

tvm13

tvm14

tvm15

配置 spark-default.sh ,主要用于spark执行任务(可以命令行动态指定):

# http://spark.apache.org/docs/latest/configuration.html#configuring-logging

# spark-defaults.sh

spark.app.name YunTuSpark

spark.driver.cores 2

spark.driver.memory 2g

spark.master spark://tvm13:7077,tvm14:7077

spark.eventLog.enabled true

spark.eventLog.dir hdfs://cluster01/tmp/event/logs

spark.serializer org.apache.spark.serializer.KryoSerializer

spark.serializer.objectStreamReset 100

spark.executor.logs.rolling.time.interval daily

spark.executor.logs.rolling.maxRetainedFiles 30

spark.ui.enabled true

spark.ui.killEnabled true

spark.ui.liveUpdate.period 100ms

spark.ui.liveUpdate.minFlushPeriod 3s

spark.ui.port 4040

spark.history.ui.port 18080

spark.ui.retainedJobs 100

spark.ui.retainedStages 100

spark.ui.retainedTasks 1000

spark.ui.showConsoleProgress true

spark.worker.ui.retainedExecutors 100

spark.worker.ui.retainedDrivers 100

spark.sql.ui.retainedExecutions 100

spark.streaming.ui.retainedBatches 100

spark.ui.retainedDeadExecutors 100

# spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

hdfs资源准备

因为 spark.eventLog.dir 指定为hdfs存储,所以需要在hdfs预先创建相应的目录文件:

hdfs dfs -mkdir -p hdfs://cluster01/tmp/event/logs

配置系统环境变量

编辑 ~/.bashrc :

export SPARK_HOME=/data/template/s/spark/spark-2.4.5-bin-hadoop2.7

export PATH=$SPARK_HOME/bin/:$PATH

分发

以上配置完成后,将 /path/to/spark-2.4.5-bin-hadoop2.7 分发至各个slave节点,并配置各个节点的环境变量。

启动

先在master节点启动所有服务:./sbin/start-all.sh

然后在backup节点单独启动master服务:./sbin/start-master.sh

查看状态

启动完成后到web去查看:

master(8081端口):Status: ALIVE

17e569adce48e05813bfe95de72e6b80.png

backup(8080端口):Status: STANDBY

9ddad771431a79573f5f65150bad42dc.png

完成!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哈夫曼字符串编码c语言实现,基于哈夫曼(haffuman)算法的文件压缩的实现(C语言)(原创)...

本文首先简要阐述哈夫曼算法的基本思想,然后介绍了使用哈夫曼算法进行文件压缩和解压缩的处理步骤,最后给出了C语言实现的文件压缩和解压缩的源代码。哈夫曼算法的主要思想是:①首先遍历要处理的字符串,得到每个字符的出现的次数&…

代码之谜(三)- 运算符

从最简单的运算符加号()说起,加号()是个二元运算符——也就是说,加号只把两个数联接起来,从来不把第三个或者更多的联接起来。 因此,“1加2加3” 在计算机中被表述为: (1 2) 3 // a 或者 1 (2 3) // b 虽…

非培训的前端转行之路(根据个人真实经历)

我是歌谣 放弃很很难 但是坚持一定很酷 本文乃本人真实经历书写 希望对你的工作和学习有所帮助 感谢你得阅读 前言 我是歌谣,当然真名不是叫歌谣。 歌谣的原因 1. 歌谣可以传承很久 影响比较大 2. 歌谣可以让人心情愉悦 让人积极向上 3. 名字里面有个谐音 哈哈 …

一文带你理解vue创建一个后台管理系统流程(Vue+Element)

我是歌谣 放弃很容易 但是坚持一定很酷 1前言 本文根据自己工作经历编写,若有不合理之处,欢迎吐槽 2定义 后台管理系统什么 对一个页面进行增删改查 是不是有点像,不重复定义 3第一次接触后台管理系统 第一次接触后台管理系统是某b站的一…

“数万行代码“教你用html和css编写一个精美的网页

我是歌谣 放弃很容易 但是坚持一定很酷 1前言 作为一名前端开发工程师 开发一个完美的网页也是我们的必修课之一 逻辑写起来有时候不是那么的难 据说页面样式才是最难的一课 本文内容纯属自己个人观点 欢迎一起交流吐槽 2网页基础版(divcss) 我第一次接触…

一文带你理解如何解决工作中的需求

我是歌谣 放弃很容易 但是坚持一定很酷 1前言 在我们的开发过程中 会遇到一些开发的需求 怎么实现 怎么写 怎么做才最合理 2需求处理 拿到一个需求就和做数学题一样 我们要理清所有的关系 由于本文知识对需求进行阐述 所以就以vue为例子 2.1 需求1处理页面样式某页面跳转之后如…

envoy实现_如何利用 Envoy 的 Postgres 过滤器实现网络可观察性

作者:Christoph Pakulski自发布版本 1.15.0 起,Envoy 代理就开始支持 Postgres 信息解码用于统计目的了。该功能为网络中发生的 Postgres 事务提供聚合视图。有了聚合视图,Postgres 作业的种类、故障的数量和严重性瞬间一目了然。通过时间序列…

android无感刷新下拉分页,GitHub - TakWolf/Android-RefreshAndLoadMore-Demo: 一种简单的并且优雅的方式实现下拉刷新和加载更多的分页效果。...

Android - RefreshAndLoadMore Demo一种简单的并且优雅的方式实现下拉刷新和加载更多的分页效果。包含 ListView 和 RecyclerView 两种组件的对应实现。下拉刷新基于 SwipeRefreshLayout 实现。加载更多通过在列表底部添加 FooterView 实现。考虑了第一次请求数据填充不足一屏的…

自定义圆形倒计时Android,Android自定义View倒计时圆

本文实例为大家分享了Android自定义View倒计时圆的具体代码,供大家参考,具体内容如下创建attr创建DisplayUtil 类import android.content.Context;/*** Created by 王 on 2017/10/21.*/public class DisplayUtil {/*** 将px装换成dp,保证尺寸…