Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

一，安装jdk1.8.0.144

下载地址：www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

Ubuntu配置jdk运行环境

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

$ mkdir /usr/lib/jvm                           #创建jvm文件夹
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz  -C /usr/lib #/ 解压到/usr/lib/jvm目录下
$ cd /usr/lib/jvm                                 #进入该目录
$ mv  jdk1.7.0_80 java                         #重命名为java
$ sudo apt-get install vim
$ vim ~/.bashrc                                 #给JDK配置环境变量

~/.bashrc文件末尾添加以下内容

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

$ source ~/.bashrc                       #使新配置的环境变量生效
$ java -version                          #检测是否安装成功，查看java版本

二，配置ssh免密登录

$ sudo apt-get install openssh-server   #安装SSH server
$ ssh localhost                         #登陆SSH，第一次登陆输入yes
$ exit                                  #退出登录的ssh localhost
$ sudo su
$ cd ~/.ssh/                            #如果没法进入该目录，执行一次ssh localhost
$ ssh-keygen -t rsa

输入完 $ ssh-keygen -t rsa　语句以后，需要连续敲击三次回车

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost                         #此时已不需密码即可登录localhost，并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三，安装hadoop-2.6.5

下载地址：http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

$ sudo tar -zxvf  hadoop-2.6.5.tar.gz -C /usr/local    #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv  hadoop-2.6.5    hadoop                      #重命名为hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件权限

~/.bashrc文件末尾添加以下内容

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样，执行source ~./bashrc使设置生效，并输入“hadoop version”查看hadoop是否安装成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

在Hadoop的目录下执行

$ ./bin/hdfs namenode -format
$ ./sbin/start-dfs.sh
$ jps

此时也有可能出现要求输入localhost密码的情况，如果此时明明输入的是正确的密码却仍无法登入，其原因是由于如果不输入用户名的时候默认的是root用户，但是安全期间ssh服务默认没有开root用户的ssh权限

输入代码：

$vim /etc/ssh/sshd_config

检查PermitRootLogin 后面是否为yes，如果不是，则将该行代码中PermitRootLogin 后面的内容删除，改为yes，保存。之后输入下列代码重启SSH服务：

$ /etc/init.d/sshd restart

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件

后续每次重新启动Hadoop只需以下命令即可

sudo su 
ssh localhost #连接免密的root
cd /usr/local/hadoop #打开Hadoop目录
./sbin/start-dfs.sh  #启动namenode和datanode进程

四，安装Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下内容，执行source ~./bashrc使设置生效

export SCALA_HOME=/usr/share/scala-2.11

五，安装Spark

下载地址：https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后输入

lines = sc.textFile("/usr/local/spark/README.md")lines.count()   #字数统计lines.first()

如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/548054.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

相关文章

C# 分割字符串方法

使用IntelliJ IDEA和Maven管理搭建+Web+Tomcat开发环境

SpringBoot部署项目到Linux上传文件路径问题

Android权限Uri.parse总结

一起玩Docker之1——Ubuntu配置安装Docker运行环境并安装（Ubuntu、Centos）镜像

SpringBoot执行器端点Actuator Endpoint

EOF标准输入

玩玩机器学习3——TensorFlow基础之Session基本运算、占位符和变量的使用

域内禁止不明东西连接DHCP

SpringBoot中mybatis配置多数据源

玩玩机器学习4——TensorFlow基础之激活函数

centos更改MySQL数据库目录位置

玩玩机器学习5——构造单层神经网络解决非线性函数（三次函数）的曲线拟合

分享：假如浏览器和搜索引擎不再支持外部链接跳转，优化何去何从呢？

HTML网页使用CDN的jquery.qrcode.min.js生成页面二维码（直接可以复制使用）

Shiro 整合 SpringBoot

centos安装php7编译

SpringBoot Web 入门

CentOS7搭建ftp服务器（vsftpd，亲测成功）

handler类型的定时器