【spark的集群模式搭建】Standalone集群模式的搭建(简单明了的安装教程)

文章目录

    • 1、使用Anaconda部署Python
    • 2、上传、解压、重命名
    • 3、创建软连接
    • 4、配置spark环境变量
    • 5、修改 spark-env.sh配置文件
    • 6、启动hdfs,创建文件夹
    • 7、修改spark-defaults.conf配置文件
    • 8、修改workers配置文件
    • 9、修改log4j.properties配置文件(可选)
    • 10、分发文件夹和软连接
    • 11、集群启动


[图片]

1、使用Anaconda部署Python

使用anaconda的好处:具有资源环境隔离功能,方便基于不同版本不同环境进行测试开发
[图片]

分发脚本的编写可以参考文章:
大数据集群搭建以及使用过程中几个实用的shell脚本

# 上传(文件夹可以换成其他的)
cd /opt/modules
# 同步给其他两个节点【分发脚本】
xsync.sh /opt/modules/Anaconda3-2021.05-Linux-x86_64.sh# 以下操作在三个节点都需要进行# 添加执行权限
chmod u+x Anaconda3-2021.05-Linux-x86_64.sh
# 执行
./Anaconda3-2021.05-Linux-x86_64.sh# 过程
#第一次:【直接回车,然后按q】Please, press ENTER to continue>>>
#第二次:【输入yes】Do you accept the license terms? [yes|no][no] >>> yes
#第三次:【输入解压路径:/opt/installs/anaconda3】[/root/anaconda3] >>> /opt/installs/anaconda3#第四次:【输入yes,是否在用户的.bashrc文件中初始化
Anaconda3的相关内容】Do you wish the installer to initialize  Anaconda3by running conda init? [yes|no][no] >>> yes# 配置环境变量
vi /etc/profile
# 添加以下内容
# Anaconda Home
export ANACONDA_HOME=/opt/installs/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
# 刷新环境变量
source /etc/profile
# 创建python3的软连接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3
# 验证
echo $ANACONDA_HOME

2、上传、解压、重命名

# 解压安装
cd /opt/modules
tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs# 重命名
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-standalone

3、创建软连接

ln -s spark-standalone spark

4、配置spark环境变量

export SPARK_HOME=/opt/installs/spark
export PATH=$SPARK_HOME/bin:$PATH

5、修改 spark-env.sh配置文件

cd /opt/installs/spark/conf
# 重命名
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下内容:

export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export SPARK_MASTER_HOST=node01 # 主节点所在的地址
export SPARK_MASTER_PORT=7077 #主节点内部通讯端口,用于接收客户端请求
export SPARK_MASTER_WEBUI_PORT=8080 #主节点用于供外部提供浏览器web访问的端口
export SPARK_WORKER_CORES=1     # 指定这个集群总每一个从节点能够使用多少核CPU
export SPARK_WORKER_MEMORY=1g   #指定这个集群总每一个从节点能够使用多少内存
export SPARK_WORKER_PORT=7078
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_DAEMON_MEMORY=1g  # 进程自己本身使用的内存
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"
# Spark中提供了一个类似于jobHistoryServer的进程,就叫做HistoryServer, 用于查看所有运行过的spark程序

6、启动hdfs,创建文件夹

start-dfs.sh
# 创建程序运行日志的存储目录
hdfs dfs -mkdir -p /spark/eventLogs/

7、修改spark-defaults.conf配置文件

mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf# 末尾
spark.eventLog.enabled           true
spark.eventLog.dir              hdfs://node01:9820/spark/eventLogs
spark.eventLog.compress              true

8、修改workers配置文件

mv workers.template workers
vim workers# 删掉localhost,添加以下内容
node01
node02
node03

9、修改log4j.properties配置文件(可选)

mv log4j.properties.template log4j.properties
vim log4j.properties# 19行:修改日志级别为WARN
log4j.rootCategory=WARN, console

10、分发文件夹和软连接

# 第一台(分发脚本)
xsync.sh /opt/installs/spark-standalone/
xsync.sh /opt/installs/spark

11、集群启动

# 启动master:
cd /opt/installs/spark
sbin/start-master.sh
# 启动所有worker:
sbin/start-workers.sh
# 如果你想启动某一个worker
sbin/start-worker.sh# 启动日志服务:
sbin/start-history-server.sh# 要想关闭某个服务,将start换为stopmaster监控界面:http://node01:8080/
日志服务监控界面:http://node01:18080/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/58006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI 编译器学习笔记之十 -- 基于atc工具进行onnx到om转换

1、input_shape 获取? atc --modelmodelTTS5_32.onnx --framework5 --outputmodelTTS5_32 --soc_versionAscend910B4 --input_shape"x:1,-1;x_lengths:1;sid:1;tone:1,-1;language:1,-1;bert:1,1024,-1;ja_bert:1,768,-1" --precision_mode_v2origin a)…

HTML 基础标签——多媒体标签<img>、<object> 与 <embed>

文章目录 1. `<img>` 标签主要属性示例注意事项2. `<object>` 标签概述主要属性示例注意事项3. `<embed>` 标签概述主要属性示例注意事项小结在现代网页设计中,多媒体内容的使用变得越来越重要,因为它能够有效增强用户体验、吸引注意力并传达信息。HTML 提…

Apache 负载均衡详细配置步骤

一、引言 在当今的互联网时代&#xff0c;随着业务的不断增长和用户量的增加&#xff0c;单一服务器往往难以满足高并发的请求。为了提高系统的可用性、可靠性和性能&#xff0c;负载均衡技术应运而生。Apache HTTP Server&#xff08;以下简称 Apache&#xff09;作为一款广泛…

《功能高分子学报》

《功能高分子学报》 中国标准连续出版物号:CN 31-1633/O6&#xff0c;国际标准连续出版物号&#xff1a;ISSN 1008-9357&#xff0c;邮发代号&#xff1a;4-629&#xff0c;刊期&#xff1a;双月刊。 《功能高分子学报》主要刊登功能高分子和其他高分子领域具有创新意义的学术…

Pandas进行数据查看与检查

在数据分析的工作流中,数据的初步查看与检查是非常重要的步骤。通过这一步,可以快速了解数据的结构、属性以及一些关键的统计信息,确保数据符合预期,或者发现数据中的潜在问题。 借助 pandas 库中的常用方法,如 DataFrame.head()、DataFrame.tail()、DataFrame.info() 和…

校门外的树(算法:标记法)

思路实现&#xff1a; 1.利用二维数组来存储输入数据 2.开辟一个包含所有范围的数组用来做标记初始为0 3.遍历二维数组&#xff0c;取到每段区间的开始位置和结束位置&#xff0c;在标记数字组中将边界点及边界点内置1 4.遍历标记数组记录0的个数&#xff0c;即可 代码实现…

docker配置与基础操作

docker 是什么? 一个开源应用容器引擎, 用于build,share, run应用程序的平台 docker与主机连接使用的是docker自己的虚拟网卡, 类似于虚拟机使用NAT模式连接主机 docker的优点: 快捷, 轻量(占用内存小) 对docker的基本命令 apt install docker.io systemctl start docker sys…

详解SQL单表查询

SQL单表查询 1. SELECT 语句的基本结构2. 查询所有列和指定列查询所有列查询特定列 3. WHERE 条件筛选比较运算符多条件查询&#xff1a;使用 AND 和 ORNOT 操作符 4. ORDER BY 进行排序多列排序 5. LIMIT 限制返回行数只获取前N行数据使用 LIMIT 和 OFFSET 进行分页查询 6. 常…

C++编程法则365天一天一条(27)std::initializer_list 轻量级初始化列表

std::initializer_list是一个模板类&#xff0c;是一个轻量级的 const T 类型对象数组的代理对象。这意味着通过 initializer_list 访问的元素是只读的&#xff0c;你无法修改这些元素的值。可以简单理解为一个常量数组。 它主要用于在构造函数中接收可变数量的同类型参数&…

100M宽带测速只有20M

100M宽带测速只有20M的原因主要有以下几点‌&#xff1a; ‌网络设备不匹配‌&#xff1a;100兆宽带的实际使用需要全千兆路由器、超五类网线以及千兆网卡的支持。如果使用老旧的路由器、五类网线或百兆网卡&#xff0c;可能会导致网速受限。例如&#xff0c;使用普通网线可能…

二、基础语法

入门了解 注释 **作用&#xff1a;**在代码中加一些注释和说明&#xff0c;方便自己或者其他程序员阅读代码 两种格式&#xff1a; 单行注释&#xff1a;// 描述信息 通常放在一行代码的上方&#xff0c;或者一条语句的末尾&#xff0c;对该行代码进行说明 多行注释&#x…

minikube 的 Kubernetes 入门教程--(五)

本文记录 Minikube 在 Kubernetes 上安装 WordPress 和 MySQL。 这两个应用都使用 PersistentVolumes 和 PersistentVolumeClaims 保存数据。 在深入这些步骤之前&#xff0c;先分享来自kubernetes.io教程。 链接>>使用持久卷部署 WordPress 和 MySQL | Kubernetes 获…

安装部署 ESXi

一、虚拟化 1. 虚拟化发展 单宿主机 高性能硬件一人一机系统维护成本高灵活性差 虚拟化 底层依赖高性能硬件高性能硬件转换为逻辑硬件共享给虚拟机使用支持动态扩展收缩硬件 云平台 灵活性支持选择系统类型和版本管理简单方便安全可靠 2. 虚拟化的作用和优势 虚拟化作用 物理…

向量数据库|第2期|pgvectorscale

向量数据库|第2期|pgvectorscale 大家都听说过pgvector&#xff0c;一个PostgreSQL存储和查询向量的扩展&#xff0c;是PG AI生态当之无愧的最受推崇的工具之一。pgvector向PG中添加了vector类型&#xff0c;以及各种搜索操作符和索引&#xff0c;使其拥有vectors和metadata的完…

【sqlmap使用】

sqlmap简介 sqlmap 目录结构 sqlmap常用参数 sqlmap实现注入 测试注入点&#xff0c;检测到注入点后&#xff0c;直接爆数据库名 python sqlmap.py –u http://172.16.12.2/7/9/strsql.php --data "usernameadmin" --dbs注意sqlmap在使用过程中可能会出现几个需要…

Perl 环境安装

Perl 环境安装 Perl 是一种广泛使用的高级、通用、解释型、动态编程语言。它最初由 Larry Wall 在 1987 年设计,现在由 Perl 5 和 Perl 6 两个主要版本组成。Perl 适合于多种编程任务,包括系统管理、Web 开发、网络编程、游戏开发等。在开始使用 Perl 进行编程之前,您需要在…

通过源码分析类加载器里面可以加载的类

类列表 每一个ClassLoader里面的类列表&#xff0c;类的数量都是固定的。 对上一节中的dex反编译 使用DexClassLoader类动态加载插件dex   利用jadx对dex进行反编译可以看到有哪些类 源码分析 BaseDexClassLoader 从BaseDexClassLoader类加载器开始分析 在BaseDexClassLoade…

力扣11.3

1981. 最小化目标值与所选元素的差 给你一个大小为 m x n 的整数矩阵 mat 和一个整数 target 。 从矩阵的 每一行 中选择一个整数&#xff0c;你的目标是 最小化 所有选中元素之 和 与目标值 target 的 绝对差 。 返回 最小的绝对差 。 a 和 b 两数字的 绝对差 是 a - b 的…

宝塔使用clickhouse踩坑

前言 最近有个物联网项目&#xff0c;需要存储物联网终端发送过来的信息&#xff08;类似log日志&#xff0c;但又要存储在数据库里&#xff0c;方便后期聚合统计&#xff09;&#xff0c;本来想写文件的奈何客户要求聚合统计&#xff0c;所以只能用数据库才能达到更高的计算效…

parted 磁盘分区

目录 磁盘格式磁盘分区文件系统挂载使用扩展 - parted、fdisk、gdisk 区别 磁盘格式 parted /dev/vdcmklabel gpt # 设置磁盘格式为GPT p # 打印磁盘信息此时磁盘格式设置完成&#xff01; 磁盘分区 开始分区&#xff1a; mkpart data_mysql # 分区名&…