​​​​​​​​​​​​​​Spark Standalone集群环境

目录

Spark Standalone集群环境

修改配置文件

【workers】

【spark-env.sh】

【配置spark应用日志】

【log4j.properties】

分发到其他机器

启动spark Standalone

启动方式1:集群启动和停止

启动方式2:单独启动和停止

连接集群

【spark-shell 连接】

​编辑

【pyspark 连接】


Spark Standalone集群环境

Standalone模式是Spark自带的一种集群模式,不同于前面本地模式启动多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。

节点

主节点(master)

从节点(worker)

历史服务(history server)

node1

node2

node3

修改配置文件

说明: 直接对local模型下的spark进行更改为standalone模式

【workers】

cd /export/server/spark/conf/

cp workers.template  workers

vim workers

添加以下内容:

node1.itcast.cn

node2.itcast.cn

node3.itcast.cn

【spark-env.sh】

cd /export/server/spark/conf

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

增加如下内容:

JAVA_HOME=/export/server/jdk1.8.0_241/

HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/

YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/

export SPARK_MASTER_HOST=node1

export SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1

SPARK_WORKER_MEMORY=1g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意:

Jdk,hadoop, yarn的路径, 需要配置为自己的路径(可能与此位置不一致)

History配置中, 需要指定hdfs的地址, 其中端口号为8020或者9820, 大家需要参考hdfs上对应namenode的通信端口号

【配置spark应用日志】

第一步: 在HDFS上创建应用运行事件日志目录:

hdfs dfs -mkdir -p /sparklog/

第二步: 配置spark-defaults.conf

cd /export/server/spark/conf

cp spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf

添加以下内容:

spark.eventLog.enabled  true

spark.eventLog.dir      hdfs://node1:8020/sparklog/

spark.eventLog.compress true

其中HDFS的地址, 8020 还是9820 需要查看HDFS的界面显示

【log4j.properties】

cd /export/server/spark/conf

cp log4j.properties.template log4j.properties

vim log4j.properties

#改变日志级别

分发到其他机器

将配置好的将 Spark 安装包分发给集群中其它机器,命令如下:

cd /export/server/

scp -r spark-3.1.2-bin-hadoop3.2/ node2:$PWD

scp -r spark-3.1.2-bin-hadoop3.2/ node3:$PWD

##分别在node2, 和node3中创建软连接

ln -s /export/server/spark-3.1.2-bin-hadoop3.2/  /export/server/spark

启动spark Standalone

启动方式1:集群启动和停止

在主节点上启动spark集群

cd /export/server/spark

sbin/start-all.sh

 

 

sbin/start-history-server.sh

在主节点上停止spark集群

/export/server/spark/sbin/stop-all.sh

启动方式2:单独启动和停止

在 master 安装节点上启动和停止 master:

start-master.sh

stop-master.sh

在 Master 所在节点上启动和停止worker(work指的是slaves 配置文件中的主机名)

start-slaves.sh

stop-slaves.sh

  1. WEB UI页面

http://node1:8080/

可以看出,配置了3个Worker进程实例,每个Worker实例为1核1GB内存,总共是3核 3GB 内存。目前显示的Worker资源都是空闲的,当向Spark集群提交应用之后,Spark就会分配相应的资源给程序使用,可以在该页面看到资源的使用情况。

  1.  历史服务器HistoryServer:

/export/server/spark/sbin/start-history-server.sh

WEB UI页面地址:http://node1:18080

连接集群

【spark-shell 连接】

cd /export/server/spark

bin/spark-shell --master  spark://node1:7077

【pyspark 连接】

cd /export/server/spark

./bin/pyspark --master spark://node1:7077

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细介绍MySQL的索引(下)

索引的使用 同一条数据在未创建索引的情况下耗时: nick字段是未创建索引的 select * from t_user WHERE nick 邹丽;SHOW PROFILES; 耗时为: user_account字段创建了唯一索引 select * from t_user WHERE user_account 13781945844;SHOW PROFILES;…

PHP验证日本固定电话号码

日本电话号码格式众多,验证起来比较头大,现在咱们来一个简单的总结哈 为了简单起见,使用PCRE 函数preg_match通过匹配正则表达式来实现验证。 function checkGdTelLandline(string $str): int|false {return preg_match("/\A0(\d{1}[-…

git commit 怎么跳过 husky, commitlint 的检查

我们引入 husky, commitlint 是为了保障代码入库的质量,但是有些时候,我们需要应急处理,比如你在升级框架时,通常不是一两天能解决的,可能希望临时把代码提交到一个分支,而这个时候,你改造的代码…

0122__linux之eventfd理解

linux之eventfd理解-CSDN博客 Linux fd 系列 — eventfd 是什么?-CSDN博客

安装 VisualSVN Server提示HTTP服务无法启动的问题解决

安装 VisualSVN Server 版本:VisualSVN-Server-5.4.0-x64 安装包在安装到一半的时候,弹窗提示:HTTP服务无法启动,网上找了一大堆,说是service里面更改用户为本地用户什么的都没用用,点右键也无法启动。 …

配置Uptime Kuma固定前缀

在做ICT集成项目时,遇到需要对现网接口进行拨测的需求。搜索后尝试使用开源的Uptime Kuma组件完成现网接口拨测。 但该项目有个问题就是默认不支持配置固定前缀,这对现网进行请求转发会造成较大的影响。通过查看该项目的github后找到了问题的解决方案。S…

systemd指令之journalctl指令

systemd的历史由来及概述 在Linux系统的发展历程中,init进程一直是系统启动的核心。然而,这种传统的启动方式存在两个主要缺点: 启动时间长:init进程采用串行启动机制,只有在前一个进程启动完成后,才能启…

web自动化(三)鼠标操作键盘

selenuim 键盘操作 import timefrom selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from selen…

SQL语言基础特点、数据库系统

一、SQL的概述 (1) SQL全称: Structured Query Language,是结构化查询语言,用于访问和处理数据库的标准的计算机语言。 (2)SQL语言1974年由Boyce和Chamberlin提出,并首先在IBM公…

安卓h5打包系统设计

设计一个安卓H5打包系统,主要是为了将H5应用高效、便捷地转换为原生安卓应用(APK),以适应不同场景下的需求。下面是一个基本的设计框架: 1. 系统目标与需求分析 目标:实现一个用户友好的界面,使无编程基础的用户也能轻松将H5项目打包成安卓APP。需求: 支持H5项目上传与…

Leetcode秋招冲刺(专题10--12)

专题10:动态规划 题目509:斐波那契数(NO) 解题思路:动态五部曲 动态五部曲:这里我们用一个一维数组来保存递归的结果 确定dp数组以及下标的含义 dp[i]的定义为:第i个数的斐波那契数值是dp[i]…

手写数组去重

方法1-判断相邻元素 function _deleteRepeat(arr){if(!Array.isArray(arr)){throw new Error(参数必须是数组)}let res[];// 使用slice创建arr的副本&#xff0c;并排序let sortArrarr.slice().sort((a,b)>a-b);for(let i0;i<sortArr.length;i){if(isortArr.length-1||s…

韩语日常口语留学韩语旅游韩语口语柯桥语言培训

韩语每日一词打卡&#xff1a;행정적[행정적]【名词】行政 原文:나라는 항상 행정적 명령을 통해 경제운행을 조절합니다. 意思&#xff1a;国家经常通过行政命令去调节经济的运行。 【原文分解】 1、항상[항상]总是 &#xff0c;经常 2、나라[나라]国家 3、명령[명:녕]命令 …

Node.js_流Stream

Node.js 中的流&#xff08;Streams&#xff09;是一种处理读取和写入数据的抽象接口&#xff0c;它允许你以非阻塞的方式处理数据&#xff0c;这对于处理大文件或网络请求等 I/O 密集型任务非常有用。流主要分为四种类型&#xff1a;可读流&#xff08;Readable&#xff09;、…

项目2:API Hunter 细节回顾 -1

一. 接口调用 对于开发者来说&#xff0c;接口的调用应当是方便快捷的&#xff0c;而且出于安全考虑&#xff0c;通常会选择在后端调用第三方 API&#xff0c;避免在前端暴露诸如密码的敏感信息。 若采用 HTTP 调用方式&#xff1a; HttpClientRestTemplate第三方库&#xf…

cglib

ASM是一个非常高效的Java字节码操控和分析框架&#xff0c;它允许开发者在运行时或者编译时期动态地生成、改变或者分析类。ASM提供的功能强大且灵活&#xff0c;适用于诸如框架开发、代码优化、代码生成等多种场景 需求&#xff1a;用 asm 编写一个类并运行输出hello word 依…

Spring国际化多语言实现-MessageSource

1 简介 Spring MessageSource 是 Spring 框架中用于国际化&#xff08;i18n&#xff09;和本地化&#xff08;l10n&#xff09;功能的一个关键组件 MessageSource 提供了一种灵活的方式来管理多语言环境下的消息。它支持从不同的资源文件中加载消息&#xff0c;如 .propertie…

视图库对接系列(GA-T 1400)四、视图库对接系列(本级)注册

视图库对接系列(本级)注册 在之前的步骤中&#xff0c;我们已经把项目大体的架构已经写出来了。那我们就来实现注册接口。 GA-T 1400中的步骤如下&#xff1a; 这里的话&#xff0c;我们实现的简单点&#xff0c; 我们不进去鉴权&#xff0c;也就是设备或平台找我们注册的话&…

Python高速下载及安装的十大必备事项与C++联调

选择正确的版本&#xff1a; 访问Python官网&#xff08;https://www.python.org/&#xff09;下载最新稳定版本&#xff0c;目前最新稳定版本为3.12.4 避免下载并安装Python 2.x版本&#xff0c;因为它已经停止维护。 选择适合操作系统的安装包&#xff1a; 根据你的操作系…

【笔记】太久不用redis忘记怎么后台登陆了

&#xff01;首先启动虚拟机linux的centos7 2.启动finalshell 我的redis启动在根目录用 redis-server redis.conf --启动 systemctl status redis --查看redis状态 是否active redis-cli -h centos的ip地址 -p 你要用的redis端口号&#xff08;默认为6379&#xff09; -a 你…