Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

 

一,安装jdk1.8.0.144

下载地址:www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

Ubuntu配置jdk运行环境

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ mkdir /usr/lib/jvm                           #创建jvm文件夹
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz  -C /usr/lib #/ 解压到/usr/lib/jvm目录下
$ cd /usr/lib/jvm                                 #进入该目录
$ mv  jdk1.7.0_80 java                         #重命名为java
$ sudo apt-get install vim
$ vim ~/.bashrc                                 #给JDK配置环境变量

~/.bashrc文件末尾添加以下内容

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
$ source ~/.bashrc                       #使新配置的环境变量生效
$ java -version                          #检测是否安装成功,查看java版本

二,配置ssh免密登录

$ sudo apt-get install openssh-server   #安装SSH server
$ ssh localhost                         #登陆SSH,第一次登陆输入yes
$ exit                                  #退出登录的ssh localhost
$ sudo su
$ cd ~/.ssh/                            #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa      

输入完  $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost                         #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三,安装hadoop-2.6.5

下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

$ sudo tar -zxvf  hadoop-2.6.5.tar.gz -C /usr/local    #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv  hadoop-2.6.5    hadoop                      #重命名为hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件权限

~/.bashrc文件末尾添加以下内容

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样,执行source ~./bashrc使设置生效,并输入“hadoop version”查看hadoop是否安装成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

在Hadoop的目录下执行

$ ./bin/hdfs namenode -format
$ ./sbin/start-dfs.sh
$ jps

此时也有可能出现要求输入localhost密码的情况 ,如果此时明明输入的是正确的密码却仍无法登入,其原因是由于如果不输入用户名的时候默认的是root用户,但是安全期间ssh服务默认没有开root用户的ssh权限

输入代码:

$vim /etc/ssh/sshd_config

检查PermitRootLogin 后面是否为yes,如果不是,则将该行代码 中PermitRootLogin 后面的内容删除,改为yes,保存。之后输入下列代码重启SSH服务:

$ /etc/init.d/sshd restart

成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件

后续每次重新启动Hadoop只需以下命令即可

sudo su 
ssh localhost #连接免密的root
cd /usr/local/hadoop #打开Hadoop目录
./sbin/start-dfs.sh  #启动namenode和datanode进程

四,安装Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下内容,执行source ~./bashrc使设置生效

export SCALA_HOME=/usr/share/scala-2.11

五,安装Spark

下载地址:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后输入

lines = sc.textFile("/usr/local/spark/README.md")lines.count()   #字数统计lines.first()

如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/548054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# 分割字符串方法

单个字符分割 string s"abcdeabcdeabcde"; string[] sArrays.Split(c); foreach(string i in sArray) Console.WriteLine(i.ToString()); 输出下面的结果: ab deab deab de 多个字符分割 string s"abcdeabcdeabcde string[] sArray1s.Split(new char[3]{c,d,e})…

使用IntelliJ IDEA和Maven管理搭建+Web+Tomcat开发环境

使用IntelliJ IDEA和Maven管理搭建WebTomcat开发环境 使用IntelliJ IDEA和Maven管理搭建WebTomcat开发环境 前言&#xff1a;原来一直使用Eclipse&#xff0c;换工作后使用IDEA&#xff0c;初识IDEA发现&#xff0c;哇&#xff0c;它的快捷键可真多啊&#xff0c;但是一路用下…

SpringBoot部署项目到Linux上传文件路径问题

SpringBoot部署项目到Linux上传文件路径问题 使用项目相对路径上传到话会上传到linux服务器到/tmp 临时文件目录中&#xff0c;但是问题是还会报异常 Caused by: java.io.FileNotFoundException: /tmp/tomcat.8223985333111777969.80/work/Tomcat/localhost/ROOT/file:/projec…

Android权限Uri.parse总结

Android权限Uri.parse的详细资料刚整理了份Android权限Uri.parse的资料1&#xff0c;调web浏览器Uri myBlogUri Uri.parse("http://xxxxx.com");returnIt new Intent(Intent.ACTION_VIEW, myBlogUri);2&#xff0c;地图Uri mapUri Uri.parse("geo:38.899533,…

一起玩Docker之1——Ubuntu配置安装Docker运行环境并安装(Ubuntu、Centos)镜像

Docker 是一个开源的应用容器引擎&#xff0c;基于 Go 语言 并遵从Apache2.0协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。 容器是完全使用沙箱机制&am…

SpringBoot执行器端点Actuator Endpoint

比较常用的Endpoint URL作用/actuator/health健康检查/actuator/beans查看容器中所有的Bean/actuator/mapping查看Web的URL映射/actuator/env查看环境信息 默认/actuator/health和/actuator/info是可以通过Web访问&#xff0c;其他的需要解禁 在配置文件中可以设置可以访问哪…

EOF标准输入

Linux中&#xff0c;在新的一行的开头&#xff0c;输入Ctrl-d&#xff0c;就代表EOF&#xff08;如果在一行的中间按下Ctrl-d&#xff0c;表示输出“标准输入”的缓存区&#xff0c;这时需要按两次&#xff09;。另外Ctrl-z表示中断进程&#xff0c;在后台挂起&#xff0c;用fg…

玩玩机器学习3——TensorFlow基础之Session基本运算、占位符和变量的使用

通过TensorFlow的矩阵和常量的"加减乘除"运算&#xff0c;讲一下Session、变量以及占位符的使用 目录 Session创建会话与运算 变量的使用 占位符的使用 Session创建会话与运算 #session的使用&#xff0c;介绍两种启动Session的方式&#xff0c;进行矩阵乘法运算…

域内禁止不明东西连接DHCP

今天在Windows论坛看到一大牛版主分享的经验&#xff0c;赶紧挺好&#xff0c;就赶紧记下来。 http://bbs.51cto.com/thread-967999-1.html 再补充一点点 域内查看其他pc的 MAC 地址 同一网段的 直接 ping一下 对方 ip地址 然后 arp -a 一下 不通网段的 可以先在 dhc…

SpringBoot中mybatis配置多数据源

首先需要创建多个数据库 简单的user表 CREATE TABLE user (id int NOT NULL AUTO_INCREMENT,name varchar(255) DEFAULT NULL,age int DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT2 DEFAULT CHARSETutf8;导入项目依赖 <dependencies><dependency&g…

玩玩机器学习4——TensorFlow基础之激活函数

激活函数&#xff08;activation function&#xff09;运行时激活神经网络中某一部分神经元&#xff0c;将激活信息向后传入下一层的神经网络。神经网络之所以能解决非线性问题&#xff08;如语音、图像识别&#xff09;&#xff0c;本质上就是激活函数加入了非线性因素&#x…

centos更改MySQL数据库目录位置

http://barrelfish.blog.163.com/blog/static/130650826201010204911893/ MySQL默认的数据文件存储目录为/var/lib/mysql。假如要把目录移到/home/data下需要进行下面几步&#xff1a;1、home目录下建立data目录cd /homemkdir data2、把MySQL服务进程停掉&#xff1a; mysqladm…

玩玩机器学习5——构造单层神经网络解决非线性函数(三次函数)的曲线拟合

使用TensorFlow构造了一个隐藏层和输出层的神经网络&#xff0c;做非线性曲线的拟合 import tensorflow as tf import matplotlib.pyplot as plt import numpy as npnp.random.seed(1) x np.linspace(-1, 1, 100)[:, np.newaxis] #创建一个新维度 noise np.random.normal(0,…

分享:假如浏览器和搜索引擎不再支持外部链接跳转,优化何去何从呢?

分享&#xff1a;假如浏览器和搜索引擎不再支持外部链接跳转&#xff0c;优化何去何从呢&#xff1f; 当我们的浏览器和搜索引擎不再支持外部链接跳转&#xff0c;我们的优化何去何从呢&#xff1f; 其实这是一个假设。 如果真有那么一天。 那么&#xff0c;搜索引擎也许只要…

HTML网页使用CDN的jquery.qrcode.min.js生成页面二维码(直接可以复制使用)

HTML页面代码 <!DOCTYPE html> <html> <head><title></title><meta http-equiv"Content-Type" content"text/html; charsetutf-8" /><meta name"generator" content"pandoc" /><meta n…

Shiro 整合 SpringBoot

Shiro 整合 SpringBoot shiro主要有三大功能模块 Subject&#xff1a;主体&#xff0c;一般指用户。 SecurityManager&#xff1a;安全管理器&#xff0c;管理所有Subject&#xff0c;可以配合内部安全组件。(类似于SpringMVC中的DispatcherServlet) Realms&#xff1a;用于…

centos安装php7编译

centos7下安装php7 php7 centos7 安装PHP7 首先安装一些必须的依赖&#xff0c;这里就不阐述了&#xff0c;后面文章再细说 yum install -y \ gcc-c autoconf \ yum -y install postgresql-devel\ libjpeg libjpeg-devel libpng \ libpng-devel freetype freetype-devel \ li…

SpringBoot Web 入门

SpringBoot Web 要解决的问题&#xff1a; 导入静态资源首页模板引擎 Thymeleaf装配扩展SpringMVCCRUD拦截器国际化 SpringMVC的自动配置类为WebMvcAutoConfiguration &#xff0c;对应的properties类为WebMvcProperties //WebMvcProperties部分代码 //在application配置文…

CentOS7搭建ftp服务器(vsftpd,亲测成功)

安装vsftpd sudo yum install vsftpd 配置参数 命令行输入 vim /etc/vsftpd.conf 使用如下配置 # Example config file /etc/vsftpd.conf # # The default compiled in settings are fairly paranoid. This sample file # loosens things up a bit, to make the ftp daem…

handler类型的定时器

2019独角兽企业重金招聘Python工程师标准>>> 一、采用Handle与线程的sleep(long)方法 Handler主要用来处理接受到的消息。这只是最主要的方法&#xff0c;当然Handler里还有其他的方法供实现&#xff0c;有兴趣的可以去查API&#xff0c;这里不过多解释。 1. 定义…