Centos6.8 安装spark-2.3.1 以及 scala-2.12.2

一、Spark概述
    Spark 是一个用来实现快速而通用的集群计算的平台。

    在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。

    Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比 MapReduce 更加高效。
 Spark 5个核心库

  1.内核: spark 的核心基础设施,提供了表示和存储数据的原始数据类型,称为 RDD(Resilient Distributed Dataset, 弹性分布式数据集)

  2.SQL

  3. MLlib(Machine Learning Library, 机器学习库)

  4. GraphX: 供图和图相关的计算使用

  5.流(Streaming) 

二、安装步骤

1. 安装JDK环境

下载JDK安装包,配置JDK环境

 

2.安装SCALA

1).下载scala,我这里下载的是scala-2.12.2.tgz,并上传到linux服务器 

2).新建scala目录:/usr/local/scala 

3).将scala-2.12.2.tgz复制到:/usr/local/scala,并解压缩 

4).在/etc/profile文件中添加: 
  SCALA_HOME=/usr/local/scala/scala-2.12.2 
  PATH=$PATH:${SCALA_HOME}/bin 

5).输入source /etc/profile 使profile文件生效 

6).输入scala,查看scala是否生效 

 



3.安装Spark 
1).下载Spark,我这里下载的是spark-2.3.1-bin-hadoop2.7.tgz 

2).新建spark目录:/usr/local/spark 

3).将spark-2.3.1-bin-hadoop2.7.tgz复制到:/usr/local/spark,并解压缩 

4).在/etc/profile文件中添加: 
  SPARK_HOME=/usr/local/spark/spark-2.3.1-bin-hadoop2.7 
  PATH=$PATH:${SPARK_HOME}/bin 

5).输入source /etc/profile 使profile文件生效 

6).修改spark配置 
  进入spark-2.3.1-bin-hadoop2.4/conf 
  复制模板文件: 
  cp spark-env.sh.template spark-env.sh 
  cp slaves.template slaves 

7).编辑spark-env.sh,添加: 
  export JAVA_HOME=/usr/local/java/jdk1.8.0_131 
  export SCALA_HOME=SCALA_HOME=/usr/local/scala/scala-2.12.2 
  export SPARK_MASTER_IP=172.20.0.204 
  export SPARK_WORKER_MEMORY=1g 
  export HADOOP_CONF_DIR=/usr/local/spark/spark-2.3.1-bin-hadoop2.7 

8).输入source spark-env.sh,使spark-env.sh文件生效 

9).试一下spark是否安装成功 

 

统计一下README.md文件中的单词个数

 

Reference:

[1]:https://margaret0071.iteye.com/blog/2384805

转载于:https://www.cnblogs.com/hoojjack/p/10160663.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/281086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊一聊 WPF 程序的键盘是如何被窃听的?

一:背景 1.讲故事前几天群里很热闹,看了下在争论两个问题:电脑里要不要装杀毒软件 ?应该装什么杀毒软件 ?不管杀毒软件流氓不流氓,在如今病毒肆虐的当下互联网,装一个还是能帮我们拦截很多意想不到的东西&#xff0c…

httpclient 实现文件上传中转

开发功能: web前端提交上传文件 —> a服务器接收 —> 转发到b服务器进行文件处理 下面是简单实现的代码,具体细节优化根本自己的需求更改。 public String handleResponse(HttpServletRequest request, HttpServletResponse response)throws Unsup…

AngularJS $watch 性能杀手

双向绑定是AngularJS核心概念之一,它给我们带来了思维的转变,不再是以DOM为驱动,而是以Model为核心,View中写上声明式标签(指令或{{}}),AngularJS会在后台默默同步View到Model,并将Model的变化更新到View。…

ipad和iphone切图_如何在iPhone和iPad上的Messages App中固定对话

ipad和iphone切图Khamosh PathakKhamosh PathakBetween updates from your bank and group chats, the Messages app on your iPhone or iPad can be a mess. Use the pinned conversations feature introduced in iOS 14 and iPadOS 14 to access your favorite conversations…

这个WPF的企业级MES项目爆火,就是UI争议大!

工业4.0时代,智能智造MES系统大行其道,然而基于.NET跨平台的罕见!这里有一套《.NET6WPF企业级MES实战》教程,基于.NET6跨平台开发,实现了MES多核心功能,尤其是开发框架完整,非常适合复用。这里分…

单调栈学习笔记

线性结构——单调栈①定义:栈内的元素,按照某种方式排序(单调递增或单调递减)如果新入栈的元素破坏了单调性,就弹出栈内元素,直到满足单调性②优点:可以很方便地求出某个数左边或者右边第一个比…

《VMware Virtual SAN权威指南(原书第2版)》一1.5 什么是Virtual SAN

1.5 什么是Virtual SAN Virtual SAN是VMware推出的一种存储解决方案,它的beta版本在2013年发布,2014年3月正式开放给公众,并于2016年3月升级到6.2版。VSAN完全集成在vSphere中,它是一种基于对象的存储系统,是虚拟机存…

在Outlook 2007中查看您的Google日历

Google Calendar is a phenomenal web application for managing your calendars, but so many of us are still forced to use Outlook at work. The good thing is you can have the best of both worlds by subscribing to your Google Calendar from Outlook. Google日历是…

元宇宙、数字孪生和企业NFT

昨天参加了华为云上海开发者日活动,并客串主持了一场"元宇宙技术创新和商业实践之路"的闭门研讨会。研讨会上大家讨论热烈,干货多多,大家提到元宇宙的企业级前景、数字藏品和数字人案例的亲身体会。在会上盆盆分享了自己关于企业级…

CMD命令硬盘/光驱挂载

使用Mountvol命令挂载时,发现GUID不对啊,哪应该到哪找呢? 1.首先可以用Mountvol命令: Mountvol 创建、删除或列出卷的装入点。Mountvol 是一种不需要驱动器号而连接卷的方式。 语法: mountvol [Drive:]Path VolumeName…

纽约大街上的免费WiFi,终于铺起来了

纽约市的城市互联网项目终于开始动工了。 这个被称为 LinkNYC 的网络服务项目,是将现有的 1 万多个付费电话亭改造成提供 Wi-Fi 网络的“热点桩”,为纽约市民提供免费网络。从 12 月 28 日开始,工人们已经开始安装首批的 LinkNYC 热点桩了&am…

reddit_如何将多个子Reddit与多个Reddit合并

redditchrisdorney/Shutterstock.comchrisdorney / Shutterstock.comIf you’re subscribed to a lot of communities on Reddits, some of the content you want to see may get lost in the mix. For easier browsing, you can make your own “multireddit” that combines …

BeetleX之ServerBuilder对象使用

ServerBuilder是BeetleX新版本添加对象&#xff0c;用于进一步简化TCP服务的构建。ServerBuilder对象提供两个泛型版本&#xff1a;一个是针对网络数据流操作&#xff0c;另一个则针对协议解释器的对象处理操作。网络数据流当需要解释简单的网络数据流时使用ServerBuilder<A…

solidworks小金球_如何在没有电缆的情况下传送第77届年度金球奖

solidworks小金球Gil C / Shutterstock吉尔C / ShutterstockAs the 77th annual Golden Globes Awards approach, you may be wondering how to watch it without paying a cable bill. These streaming services are the best way to watch the awards show tonight if you cu…

2017年,这两个大数据岗位一定会火!

讨论哪个大数据岗位会火之前&#xff0c;我们先来简单的分析一下大数据领域的行情&#xff0c;这里重点说一下当前的情况。 2016年&#xff0c;互联网行业遇到了资本寒冬&#xff0c;抛开大公司不说&#xff0c;一些中小型的公司不断的缩减预算&#xff0c;因为很难融到钱。 但…

PHP7 学习笔记(十一)使用phpstudy快速配置一个虚拟主机

说明&#xff1a;为了windows本地开发php方便&#xff0c;这里推荐使用PHP集成环境phpstudy。 目的&#xff1a;使用域名访问项目&#xff08;tinywan.test&#xff09; 1、官网&#xff1a;http://www.phpstudy.net 2、虚拟主机的配置 3、站点域名管理 &#xff08;1&#xff…

.NET跨平台框架选择之一 - Avalonia UI

本文阅读目录1. Avalonia UI简介Avalonia UI文档教程&#xff1a;https://docs.avaloniaui.net/docs/getting-started随着跨平台越来越流行&#xff0c;.NET支持跨平台至今也有十几年的光景了(Mono[1]开始)。但是目前基于.NET[2]的跨平台&#xff0c;大多数还是在使用B/S架构的…

网络串流_串流NBA篮球的最便宜方式(无需电缆)

网络串流I love NBA basketball. Every year, I get really excited around the beginning of September because I know tip-off is approaching. This year, I also had to figure out how I’m going to watch the Bulls (lose almost every game) with a combination of st…

你认识的C# foreach语法糖,真的是全部吗?

本文的知识点其实由golang知名的for循环陷阱发散而来&#xff0c; 对应到我的主力语言C#&#xff0c; 其实牵涉到闭包、foreach。为了便于理解&#xff0c;我重新组织了语言&#xff0c;以倒叙结构行文。先给大家提炼出一个C#题&#xff1a;观察for、foreach闭包的差异左边输出…

C#对window 硬件类操作,ManagementObjectSearcher

原文转载&#xff1a;http://blog.csdn.net/da_keng/article/details/50589145 纯属转载&#xff0c;复制过来方便编程时寻找。感谢作者&#xff1a;I-Awakening复制前补充&#xff1a; 在刚学C#&#xff0c;用ManagementObjectSearcher 竟然不能解析到头文件&#xff0c;需要手…