windows 10下搭建pyspark与遇到的一些问题的解决方法

windows 10 下搭建 pyspark

所需要的工具

Java JDK 1.8.0
spark-2.2.0-bin-hadoop2.7
hadoop-2.7.3
winutils.exe
在这里插入图片描述
还需要有python环境，我用的是Anaconda 3（默认你已经装好此环境）。

所需工具下载链接
链接：https://pan.baidu.com/s/1e7YQO1UErH9QFQ90pncAeA
提取码：ohv8

过程与步骤

安装 Java JDK，这里默认安装就好，一直下一步下一步，直到完成。
解压 Hadoop，Spark，并到所需要的目录下，这两个只需要解压就好，目录不要有中文与空格等字符。
配置Java，Spark，Hadoop环境变量。

JAVA 环境变量
- 先在用户变量新建，然后变量名为JAVA_HOME，变量名为你的JDK的安装路径如下图。下面的Path，添加 %JAVA_HOME%\bin，这样就设置好啦。
Spark 环境变量
- 跟JAVA环境变量设置一样，只不过变量名与路径名要变成SPARK_HOME与你的Spark的路径。
Hadoop 环境变量
- 跟JAVA环境变量设置一样，只不过变量名与路径名要变成HADOOP_HOME与你的HADOOP的路径。

详细的配置，请参考下图。

在这里插入图片描述
4. 把winutils.exe 复制到hadoop 的bin下，并用管理员打开cmd，跟着现在第二个图操作，利用winutils.exe 修改写入的权限。

winutils.exe chmod 777 C:\tmp\hive

在这里插入图片描述

一般都没有什么问题。

可能会出现的问题
- ChangeFileModeByMask error (2): ???
解决方法
- 在C盘下创建tmp\hive的文件夹
- 如C盘下已经有tmp文件夹了，可以在文件夹下添加hive的文件夹，如下图
  
  修改后再试一下上面winutils.exe的命令。

修改完后权限后，就是安装pyspark。这里也可以会翻车。因为现在pyspark更新到3.x啦。pip install pyspark 应该是安装最新的。安装完后在终端应该输入pyspark，应该也会SPARK的图案了，如下图。

但是可能用的还是会报如下错误，解决办法，就是安装pyspark对应的版本，后面加的链接是阿里云，这样下载就会快很多。

pip install pyspark=2.2.1 -i https://mirrors.aliyun.com/pypi/simple/

java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST

安装完后，应该就没有什么问题啦，运行如下。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/260653.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！