Spark集群，多个版本Python/Python Package管理

文章转载自：http://blog.csdn.net/gongbi917/article/details/52369025

仅用于个人学习备忘收藏，转载请注明原文地址

进年来，越来越多的数据科学家、分析人员、数据工程师运用Python语言进行数据分析和机器学习。Spark在0.7版本开始支持Python语言(PySpark)。
相比于Scala/Java, Python语言更适合互动的探索性分析，拥有内置的图形化工具以及丰富的机器学习库。Scala/Java的优势在于平台独立，代码和第三方库易于打包到Jar文件，更好的执行效率。当我们使用PySpark时则会失去以上优势，尤其是在集群环境管理不同的Python版本和第三方库。

具体问题：

不同的数据分析人员/开发团队需要不同版本的Python版本执行PySpark。
同一Python版本下，需要安装多个Python库，甚至需要不同版本的库。

针对问题2的一个解决办法是将Python依赖库打包成*.egg文件，在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code，编译时对平台依赖，并且对于一些复杂依赖的库（如Pandas），编译失败。
如果不使用*.egg文件，则需要安装不同Python版本极其所需库在集群中的每一台机器，然后在运行Spark时指定所需Python的路径。

解决方案

使用Anaconda管理多个Python环境在集群中的每一个节点
1. Anaconda 安装 https://www.continuum.io

wget http://repo.continuum.io/archive/Anaconda3-4.1.1-Linux-x86_64.sh
bash Anaconda3-4.1.1-Linux-x86_64.sh -b -p /opt/anaconda1
2

（此安装包默认为python3.5, 注意anaconda在每个节点的安装路径需要一致）
2. 创建多个Anaconda Python环境
创建，每行命令最后的参数anaconda是指定安装所有anaconda python package

/opt/anaconda/bin/conda create -n py34 python=3.4 anaconda
/opt/anaconda/bin/conda create -n py27a python=2.7 anaconda1
2

复制anaconda环境, 并在此环境中安装python thrift package

/opt/anaconda/bin/conda create -n py27b --clone py27a1

使用指定的Python环境运行Spark
Client Mode: PYSPARK_PYTHON = /opt/anaconda/bin/conda/py27b/python
Cluster Mode: spark.yarn.appMasterEnv.PYSPARK_PYTHON = /opt/anaconda/bin/conda/py27b/python

设置Spark默认Python环境
修改spark-env.sh

if [ -z "${PYSPARK_PYTHON}" ]; then
export PYSPARK_PYTHON=/opt/anaconda3/bin/python
fi

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/570736.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Spark集群，多个版本Python/Python Package管理

解决方案

相关文章

【网络流24题】【LOJ6224】深海机器人问题（最大费用最大流）

Oracle创建表空间、用户、分配权限、导出、导入数据

函数简介

ORA-65096: 公用用户名或角色名无效引发的思考

VS封装给Unity使用的DLL

ftp与sftp及sftp和scp的区别

Kong API Gateway部署手册----安装

Linux系统下面crontab选择默认编译器

hawq state 报错： the database is down, but Ambari shows all hawq services as being

OpenLayer学习之矢量地图

Extra Data after Last Expected Column：hawq建外表load数据报错

上下文信息 RpcContext

new malloc

pip install scrpy 报错： command 'gcc' failed with exit status 1

Codeforces 990E Post Lamps 【暴力】【贪心】

[Luogu 2486] SDOI2011 染色

完全卸载HDP和Ambari

HBase 配置详解

文件拷贝（字符、字节）

HBae找不到协处理器导致RegionServer全部挂掉