如何在spark中使用scikit-learn和tensorflow等第三方python包

目录

  • 1 打包需要的python包
  • 2 修改spark配置文件

1 打包需要的python包

首先我们用conda包管理工具对我们需要的python包进行虚拟环境创建:

conda create -n python37 --copy -y -q python=3.7 --prefix /your/workspace/path scikit-learn tensorflow

下面是对每个参数的解释(😁这里让chatgpt给出的解释,自己就不手打了😊)

conda create: 这是创建Conda环境的命令。

-n python37: -n参数后跟着你想要创建的环境的名称,这里是python37。你可以将环境名称替换为你喜欢的名称。

–copy: 这个选项指示Conda在创建环境时复制现有系统Python中的库。这有助于确保环境中包含与系统Python相同的库,以避免潜在的问题。

-y: 这个选项用于自动确认环境的创建,而不需要手动确认。

-q: 这个选项用于减少命令的输出,即以静默模式运行。

python=3.7: 这是要在环境中安装的Python版本的规范。在这个示例中,它指定要安装Python 3.7。

–prefix: 环境的安装位置

scikit-learn: 这是一个Python机器学习库,它会在新环境中安装。

tensorflow: 这是深度学习框架TensorFlow,也会在新环境中安装。

这个命令的目的是创建一个名为python37的Conda环境,将其中的Python版本设置为3.7,同时在环境中安装了scikit-learn和tensorflow软件包(后面可以放更多我们想要使用的python包),以便在该环境中进行机器学习和深度学习的开发和实验。环境名称、Python版本和要安装的软件包可以根据你的需求进行修改。
然后我们将生成的python环境进行压缩打包:

zip -r python37.zip /your/workspach/path/python37

2 修改spark配置文件

--archives /your/path/python37.zip#python37
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python37/python37/bin/python3.7 \

–archives /your/path/python37.zip#python37:
–archives参数用于在Spark应用程序运行期间将本地压缩档案文件解压到YARN集群节点上。
/your/path/python37.zip 是包含Python环境的压缩文件的本地文件路径。
#python37 是为档案文件定义的别名,这将在Spark应用程序中使用。
这个参数的目的是将名为python37.zip的压缩文件解压到YARN集群节点,并将其路径设置为python37,以供Spark应用程序使用。这通常用于指定特定版本的Python环境,以便在Spark任务中使用。
–conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python37/python37/bin/python3.7:
–conf参数用于设置Spark配置属性。
spark.yarn.appMasterEnv.PYSPARK_PYTHON 是一个Spark配置属性,它指定了YARN应用程序的主节点(ApplicationMaster)使用的Python解释器。
./python37/python37/bin/python3.7 是实际Python解释器的路径,它将在YARN应用程序的主节点上执行

这个参数的目的是告诉Spark应用程序在YARN的主节点上使用特定的Python解释器,即./python37/python37/bin/python3.7。这通常用于确保Spark应用程序使用正确的Python版本和环境来运行任务。

😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁😁
再宣传下这个方法是我们在用pyspark使用外部包的绝佳好方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/122500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jenkins自动化操作步骤(gitblit)

1、登陆地址: http://xxxxxxxxx.org:xxxx/ admin/xxxx 2、创建任务 选择构建一个maven项目 3、配置 最多只保留一天一个任务 选择git仓库和账号密码 选择代码对应分支 build项: 1)使用父项目的pom文件:k56-boot/pom.xml 2&…

12-MySQL性能监控与调优工具推荐

MySQL性能监控与调优工具推荐 本文将介绍一些常用的MySQL性能监控与调优工具,包括命令行工具、图形界面工具和第三方工具。通过这些工具,我们可以更好地监控MySQL的性能,找出潜在的问题并进行优化。 一、命令行工具 MySQL自带的慢查询日志…

【Qt之QtConcurrent】描述及使用

描述 QtConcurrent是一个Qt库中的模块&#xff0c;用于实现多线程并发编程。它提供了一些高级API&#xff0c;使得在多核处理器上并行执行代码变得更加容易。 示例&#xff1a; 使用的话&#xff0c; 需要在pro文件中添加&#xff1a;QT concurrent模块。 #include <QC…

Leetcode刷题详解——第 N 个泰波那契数

1. 题目链接&#xff1a;1137. 第 N 个泰波那契数 2. 题目描述&#xff1a; 泰波那契序列 Tn 定义如下&#xff1a; T0 0, T1 1, T2 1, 且在 n > 0 的条件下 Tn3 Tn Tn1 Tn2 给你整数 n&#xff0c;请返回第 n 个泰波那契数 Tn 的值。 示例 1&#xff1a; 输入&#…

从瀑布模式到水母模式:ChatGPT如何赋能软件研发全流程

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;目前学习C/C、算法、Python、Java等方向&#xff0c;一个正在慢慢前行的普通人。 &#x1f3c0;系列专栏&#xff1a;陈童学的日记 &#x1f4a1;其他专栏&#xff1a;CSTL&…

算法随想录算法训练营第四十五天|392.判断子序列 115.不同的子序列

392.判断子序列 题目&#xff1a;给定字符串 s 和 t &#xff0c;判断 s 是否为 t 的子序列。字符串的一个子序列是原始字符串删除一些&#xff08;也可以不删除&#xff09;字符而不改变剩余字符相对位置形成的新字符串。&#xff08;例如&#xff0c;"ace"是"…

力扣第56题 合并区间 c++ 贪心

题目 56. 合并区间 中等 相关标签 数组 排序 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例…

Flutter——最详细(Scaffold)使用教程

Scaffold简介 相当于界面的主体&#xff08;类似于安卓最外层PhoneWindow&#xff09;&#xff0c;组件的展示都必须依附于它。 使用场景&#xff1a; 每一个界面都是脚手架&#xff0c;通过它来进行架构实现&#xff0c;优美的布局效果。 属性作用appBar顶部的标题栏body显示整…

Day 11 python学习笔记

模块 内置模块 random random&#xff1a;随机数模块 我们可以在解释器中看到其蕴含的方法 接下来我解释一些常用的方法&#xff1a; random.random( ) random.random( ) 返回0-1的随机数 [0,1) >>> random.random() 0.364183511476754 random.randint(n,m) r…

Java题:查找单链表中第 k 个节点元素的值

遇到过一道奇奇怪怪的Java题&#xff0c;就整理出自己的想法&#xff0c;不知道对不对&#xff0c;还望大佬们指导。 题目 给定一个单链表&#xff0c;查找单链表中第 k 个节点元素的值&#xff0c;同时要求使用时间复杂度低的算法实现。 单链表的定义如下&#xff1a; cla…

2023年Flutter教程_Flutter+Getx仿小米商城项目实战视频教程-V3版

Flutter是谷歌公司开发的一款开源、免费的UI框架&#xff0c;可以让我们快速的在Android和iOS上构建高质量App。它最大的特点就是跨平台、以及高性能。 目前 Flutter 已经支持 iOS、Android、Web、Windows、macOS、Linux 的跨平台开发。 GetX 是 Flutter 上的一个轻量且强大的解…

AI for Security:智能化安全对抗的困境

本篇文章主要结合自己的亲身经历和体会表达一下对AI for Security的看法,整体态度偏消极。 0x01 背景 本段将由大到小从国家、网上公开资料、项目三个方面说明智能化安全对抗时代的来临。 正如有时候觉得学得好不如嫁得好,在网络安全方面有时也是学得好不如运气好跟上了历史…

SAP ABAP 报表输出成 excel 统计图形 (RFC : GFW_PRES_SHOW_MULT)

SAP 预设了一个类型组 GFW &#xff0c;做简单的excel图形输出 话不多说&#xff0c;直接上代码&#xff1a; *&---------------------------------------------------------------------* *& Report ZCYCLE057 *&----------------------------------------------…

71 搜索二维矩阵

搜索二维矩阵 题解1 Z字查找(tricky)题解2 一次二分查找题解3 两次二分查找 给你一个满足下述两条属性的 m x n 整数矩阵&#xff1a; 每行中的整数从左到右按非严格递增顺序排列。 每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target &#xff0c;如果 target …

如何在k8s的Java服务镜像(Linux)中设置中文字体

问题描述&#xff1a;服务是基于springboot的Java服务&#xff0c;在项目上是通过Maven的谷歌插件打包&#xff0c;再由k8s部署的。k8s的镜像就是一个Java服务&#xff0c;Java服务用到了中文字体。 解决这个问题首先需要搞定镜像字体的问题。有很多类似的解决方案&#xff0c;…

图解java.util.concurrent并发包源码系列——深入理解ConcurrentHashMap并发容器,看完薪水涨一千

图解java.util.concurrent并发包源码系列——深入理解ConcurrentHashMap并发容器 HashMap简单介绍HashMap在并发场景下的问题HashMap在并发场景下的替代方案ConcurrentHashMap如何在线程安全的前提下提升并发度1.71.8 JDK1.7的ConcurrentHashMap源码JDK1.8的ConcurrentHashMap源…

python 字符串str与字典dict转换

目录 python 字符串str与字典dict转换 字典转字符串字符串转字典 带引号不带引号 python 字符串str与字典dict转换 字典转字符串 c {a: 1, b: 1} bstr(c) print(b,type(b)) 字符串转字典 字符串转字典分两种情况&#xff0c;需要根据你的字符串内容是否带引号决定&#xff0c;…

网络流学习笔记

网络流基础 基本概念 源点&#xff08;source&#xff09; s s s&#xff0c;汇点 t t t。 容量&#xff1a;约等于边权。不存在的边流量可视为 0 0 0。 ( u , v ) (u,v) (u,v) 的流量通常记为 c ( u , v ) c(u,v) c(u,v)&#xff08;capacity&#xff09;。 流&#xff…

解决MySQL大版本升级导致.Net(C#)程序连接报错问题

数据库版本从MySQL 5.7.21 升级到 MySQL8.0.21 数据升级完成后&#xff0c;直接修改程序的数据库连接配置信息 <connectionStrings> <add name"myConnectionString" connectionString"server192.168.31.200;uidapp;pwdFgTDkn0q!75;databasemail;&q…

C# 超链接 LinkLabel 类 控件

LinkLabel 类 参考 反馈 定义 命名空间: System.Windows.Forms 程序集: System.Windows.Forms.dll 表示可显示超链接的 Windows 标签控件。 C#复制 public class LinkLabel : System.Windows.Forms.Label, System.Windows.Forms.IButtonControl 继承 Object Marsh…