Ubuntu上安装Apache Spark

在Ubuntu上安装Apache Spark的步骤如下:

1. 安装Java

Spark是用Scala编写的,并且依赖Java。因此,首先需要安装Java。

安装OpenJDK 8(或更高版本)

执行以下命令安装OpenJDK:

sudo apt update
sudo apt install openjdk-8-jdk

你可以通过运行以下命令检查Java版本,确保安装成功:

java -version

输出应该显示Java版本信息,例如:

openjdk version "1.8.0_292"

如果没有安装Java 8,你可以选择其他版本(例如OpenJDK 11或OpenJDK 17),但Spark推荐使用Java 8。

2. 安装Scala(可选)

Spark使用Scala作为其默认编程语言,因此最好安装Scala。不过,如果你打算使用PySpark(Python API)或Spark的其他语言API,Scala并不是必须的。

如果你想安装Scala,可以执行以下命令:

sudo apt install scala

3. 下载并安装Spark

  1. 访问Apache Spark官网并选择你想要的Spark版本。这里选择一个预编译版本(例如,Spark 3.x版本),并选择与Hadoop兼容的版本。如果你不打算使用Hadoop,可以选择不带Hadoop的版本。

  2. 使用wget命令下载Spark:

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.2.tgz

(请确保根据实际版本修改URL)

  1. 解压下载的文件:
tar -xvzf spark-3.3.1-bin-hadoop3.2.tgz
  1. 将Spark移动到一个常用目录,比如/opt
sudo mv spark-3.3.1-bin-hadoop3.2 /opt/spark

4. 配置环境变量

为确保可以从命令行使用Spark,你需要设置环境变量。

  1. 编辑~/.bashrc文件:
nano ~/.bashrc
  1. 添加以下行到文件的末尾:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=python3
  1. 使更改生效:
source ~/.bashrc

5. 配置Spark(可选)

如果需要,您可以进一步配置Spark。Spark的默认配置文件通常位于$SPARK_HOME/conf目录下,您可以复制一份模板配置文件并进行自定义配置。

  1. 复制模板配置文件:
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
  1. 编辑$SPARK_HOME/conf/spark-env.sh,根据需要配置Spark环境,例如设置Java和Hadoop的路径。
nano $SPARK_HOME/conf/spark-env.sh

添加或修改如下内容:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_MASTER_HOST=localhost

6. 启动Spark

Spark包含两个主要进程:Spark Master和Spark Worker。你可以通过start-master.shstart-worker.sh启动它们。

  1. 启动Spark Master:
$SPARK_HOME/sbin/start-master.sh
  1. 启动Spark Worker(默认连接到Master):
$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077

此时,Spark Master会在localhost:8080上启动Web UI,你可以在浏览器中访问它查看集群状态。

7. 启动Spark Shell

Spark还提供了交互式的命令行工具。如果你想使用Scala Shell,可以运行以下命令:

$SPARK_HOME/bin/spark-shell

如果你想使用Python(PySpark),可以运行:

$SPARK_HOME/bin/pyspark

8. 配置Spark为系统服务(可选)

如果你希望Spark在启动时自动启动,可以配置Spark作为系统服务。下面是基本的配置步骤。

  1. 创建一个新的systemd服务文件:
sudo nano /etc/systemd/system/spark.service
  1. 在文件中添加以下内容:
[Unit]
Description=Apache Spark
After=network.target[Service]
Type=simple
User=your_user
ExecStart=/opt/spark/sbin/start-all.sh
ExecStop=/opt/spark/sbin/stop-all.sh
Restart=on-failure[Install]
WantedBy=multi-user.target
  1. 重新加载systemd服务,并启用它:
sudo systemctl daemon-reload
sudo systemctl enable spark
sudo systemctl start spark

9. 检查Spark安装是否成功

在浏览器中访问Spark Master的Web UI:

http://localhost:8080

如果可以看到Spark Master的状态页面,说明Spark安装成功。

总结

现在你已经在Ubuntu上成功安装并配置了Apache Spark。你可以通过Spark Shell、PySpark或提交Spark作业来开始使用Spark。如果你需要运行集群模式,建议设置多个Spark节点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

formik 的使用

礼记有言:独学而无友,则孤陋而寡闻 让我们一起了解更多便捷方法,缩短开发时间去摸鱼,嘿嘿。 框架:react 在写表单的时候,我不太喜欢把验证写的很繁琐,这里讲介绍,验证表单的非常好用…

JVM实战—OOM的生产案例

1.每秒仅上百请求的系统为何会OOM(RPC超时时间设置过长导致QPS翻几倍) (1)案例背景 在这个案例中,一个每秒仅仅只有100请求的系统却因频繁OOM而崩溃。这个OOM问题会涉及:Tomcat底层工作原理、Tomcat内核参数的设置、服务请求超时时间。 (2)系统发生OOM的…

数字IC设计高频面试题

在数字IC设计领域,面试是评估候选人技术能力和问题解决能力的重要环节。数字IC设计的复杂性和要求在不断提高。面试官通常会提出一系列面试题,以考察应聘者在数字设计、验证、时钟管理、功耗优化等方面的专业知识和实践经验。 这些题目不仅涉及理论知识…

OSI模型的网络层中产生拥塞的主要原因?

( 1 )缓冲区容量有限;( 1.5 分) ( 2 )传输线路的带宽有限;( 1.5 分) ( 3 )网络结点的处理能力有限;( 1 分…

用OpenCV实现UVC视频分屏

分屏 OpencvUVC代码验证后话 用OpenCV实现UVC摄像头的视频分屏。 Opencv opencv里有很多视频图像的处理功能。 UVC Usb 视频类,免驱动的。视频流格式有MJPG和YUY2。MJPG是RGB三色通道的。要对三通道进行分屏显示。 代码 import cv2 import numpy as np video …

备战蓝桥杯 链表详解

链表概念 上一次我们用顺序存储实现了线性表,这次我们用链式存储结构实现的线性表就叫链表 链表每个节点包含数据本身和下一个节点和上一个节点的地址 链表的分类 单链表 双链表 带头链表 不带头链表 循环链表等等 我们竞赛一般都用的是带头链表 双向链表的…

DeepSeek:性能强劲的开源模型

deepseek 全新系列模型 DeepSeek-V3 首个版本上线并同步开源。登录官网 chat.deepseek.com 即可与最新版 V3 模型对话。 性能对齐海外领军闭源模型​ DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。 论…

Redis Zset有序集合

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 Redis Zset有序集合 收录于专栏[redis] 本专栏旨在分享学习Redis的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 概述 普通命令 ZAD…

Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象

Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象 Python中的可变对象与不可变对象一、Python的六大标准数据类型1. 数字类型 (Number)2. 字符串 (String)3. 列表 (List)4. 元组 (Tuple)5. 集合 (Set)6. …

Unity 2d描边基于SpriteRender,高性能的描边解决方案

目标 以Unity默认渲染管线为例,打造不需要图片内边距,描边平滑,高性能的描边解决方案 前言 在2d游戏中经常需要给2d对象添加描边,来突出强调2d对象 当你去网上查找2d描边shader,移植到项目里面,大概率会…

Oracle OCP考试常见问题之线上考试流程

首先要注意的是:虽然Oracle官方在国际上取消了获得OCP认证需要培训记录的要求,但在中国区,考生仍然需要参加Oracle的官方或者其合作伙伴组织的培训,并且由Oracle授权培训中心向Oracle提交学员培训记录。考生只有在完成培训并通过考…

基于海思soc的智能产品开发(camera sensor的两种接口)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 对于嵌入式开发设备来说,除了图像显示,图像输入也是很重要的一部分。说到图像输入,就不得不提到camera。目前ca…

Redis 笔记(二)-Redis 安装及测试

一、什么是 Redis 中文网站 Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用 ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value,并提供多种语言的 API。 Redis 开源,遵循 BSD 基…

H2数据库在单元测试中的应用

H2数据库特征 用比较简洁的话来介绍h2数据库,就是一款轻量级的内存数据库,支持标准的SQL语法和JDBC API,工业领域中,一般会使用h2来进行单元测试。 这里贴一下h2数据库的主要特征 Very fast database engineOpen sourceWritten…

通俗易懂之线性回归时序预测PyTorch实践

线性回归(Linear Regression)是机器学习中最基本且广泛应用的算法之一。它不仅作为入门学习的经典案例,也是许多复杂模型的基础。本文将全面介绍线性回归的原理、应用,并通过一段PyTorch代码进行实践演示,帮助读者深入…

MATLAB深度学习实战文字识别

文章目录 前言视频演示效果1.DB文字定位环境配置安装教程与资源说明1.1 DB概述1.2 DB算法原理1.2.1 整体框架1.2.2 特征提取网络Resnet1.2.3 自适应阈值1.2.4 文字区域标注生成1.2.5 DB文字定位模型训练 2.CRNN文字识别2.1 CRNN概述2.2 CRNN原理2.2.1 CRNN网络架构实现2.2.2 CN…

和为0的四元组-蛮力枚举(C语言实现)

目录 一、问题描述 二、蛮力枚举思路 1.初始化: 2.遍历所有可能的四元组: 3.检查和: 4.避免重复: 5.更新计数器: 三、代码实现 四、运行结果 五、 算法复杂度分析 一、问题描述 给定一个整数数组 nums&…

SpringBoot日常:集成Kafka

文章目录 1、pom.xml文件2、application.yml3、生产者配置类4、消费者配置类5、消息订阅6、生产者发送消息7、测试发送消息 本章内容主要介绍如何在springboot项目对kafka进行整合,最终能达到的效果就是能够在项目中通过配置相关的kafka配置,就能进行消息…

【实用技能】如何使用 .NET C# 中的 Azure Key Vault 中的 PFX 证书对 PDF 文档进行签名

TX Text Control 是一款功能类似于 MS Word 的文字处理控件,包括文档创建、编辑、打印、邮件合并、格式转换、拆分合并、导入导出、批量生成等功能。广泛应用于企业文档管理,网站内容发布,电子病历中病案模板创建、病历书写、修改历史、连续打…

33.3K 的Freqtrade:开启加密货币自动化交易之旅

“ 如何更高效、智能地进行交易成为众多投资者关注的焦点。” Freqtrade 是一款用 Python 编写的免费开源加密货币交易机器人。它就像一位不知疲倦的智能交易助手,能够连接到众多主流加密货币交易所,如 Binance、Bitmart、Bybit 等(支…