pyspark on yarn

背景描述

pyspark 相当于 python 版的 spark-shell,介于 scala 的诡异语法,使用 pyspark on yarn 做一些调试工作还是很方便的。

配置

  1. 获取大数据集群配置文件。如果是搭建的 CDH 或者 CDP 可以直接从管理界面下载配置文件。直接下载 hive 组件的客户端配置就可以,它里面包含了 hdfs 和 yarn 的配置。如下所示:

    -rw-rw-r--@ 1 diegolli  staff   5.0K Dec 12 16:09 core-site.xml
    -rw-rw-r--@ 1 diegolli  staff   557B Dec 12 16:09 hadoop-env.sh
    -rw-rw-r--@ 1 diegolli  staff   4.0K Dec 12 16:09 hdfs-site.xml
    -rw-rw-r--@ 1 diegolli  staff   1.3K Dec 12 16:09 hive-env.sh
    -rw-rw-r--@ 1 diegolli  staff   6.0K Dec 12 16:09 hive-site.xml
    -rw-rw-r--@ 1 diegolli  staff   310B Dec 12 16:09 log4j.properties
    -rw-rw-r--@ 1 diegolli  staff   5.5K Dec 12 16:09 mapred-site.xml
    -rw-rw-r--@ 1 diegolli  staff   1.6K Dec 12 16:09 redaction-rules.json
    -rw-rw-r--@ 1 diegolli  staff   315B Dec 12 16:09 ssl-client.xml
    -rw-rw-r--@ 1 diegolli  staff   7.3K Dec 12 16:09 yarn-site.xml
    
  2. 安装 python 和 pyspark,因为是 on yarn 所以跟集群 spark 没有关系,客户端只需要安装 spark client 工具就可以。

    conda create --name py37 python=3.7# 待环境装好后激活并在其中安装 pyspark
    pip install pyspark
    
  3. 配置环境变量并且启动 pyspark on yarn。启动前需要配置 HADOOP_CONF_DIR,直接指到第一步下载的配置文件即可。如果有多人使用服务器建议只在当前终端中配置。

    export HADOOP_CONF_DIR=/root/diegolli/conf# 如果集群配置了 kerberos 认证,启动时需要提供认证身份。
    pyspark --master yarn --principal  principal_name --keytab /path/to/keytab
    

    出现下面结果表示 spark on yarn 启动成功。

    Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 3.4.2/_/Using Python version 3.7.16 (default, Jan 17 2023 22:20:44)
    Spark context Web UI available at http://cdp01.shanghai.com:4040
    Spark context available as 'sc' (master = yarn, app id = application_1701688246977_0883).
    SparkSession available as 'spark'.
    >>>
    
  4. 测试 hive 连接。必须测试,如果不能连接到集群数仓或者没有权限。pyspark on yarn 启动了也没有什么用。

    >>> spark.sql("show databases").show()
    +------------+
    |   namespace|
    +------------+
    |       annie|
    |     default|
    |feature_test|
    |        mike|
    |        test|
    |     view_db|
    +------------+>>> spark.sql("use default")
    DataFrame[]
    >>> spark.sql("show tables").show()
    +---------+--------------------+-----------+                                    
    |namespace|           tableName|isTemporary|
    +---------+--------------------+-----------+
    |  default|                abcd|      false|
    |  default|        ddd_training|      false|
    |  default|alitest_trans_081...|      false|
    +---------+--------------------+-----------+
    only showing top 3 rows>>> df = spark.sql("select * from ddd_training limit 5")
    >>> df.show()
    +-------------+-------------+                                                   
    |sample_col_id|sample_col_ts|
    +-------------+-------------+
    | 690000125089|   2023-07-01|
    | 690000022764|   2023-07-01|
    | 690000022764|   2023-07-02|
    | 690000125089|   2023-07-02|
    | 690000125089|   2023-07-04|
    +-------------+-------------+
    

异常现象

有时会出现 pyspark on yarn 启动失败,异常提示文件找不见,或者启动了但是按退回键光标却向右边空格。改动 python 版本可以解决这些问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/217354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDC报告:国内游戏云市场,腾讯云用量规模位列第一

12月12日消息,IDC公布最新的《中国游戏云市场跟踪研究,2022H2》报告(以下简称“《报告》”)显示,腾讯云凭借全球化节点布局以及国际领先的游戏技术积累,在整体规模、云游戏流路数、CDN流量峰值带宽等多维度…

“未来医疗揭秘:机器学习+多组学数据,开启生物医学新纪元“

在当今的数字化时代,科技正在不断地改变着我们的生活,同时也为医疗领域带来了巨大的变革。随着机器学习的快速发展,以及多组学数据在生物医学中的应用,我们正开启一个全新的医疗纪元。这个纪元以精准诊断、个性化治疗和高效康复为…

Docker容器:Centos7搭建Docker镜像私服harbor

目录 1、安装docker 1.1、前置条件 1.2、查看当前操作系统的内核版本 1.3、卸载旧版本(可选) 1.4、安装需要的软件包 1.5、设置yum安装源 1.6、查看docker可用版本 1.7、安装docker 1.8、开启docker服务 1.9、安装阿里云镜像加速器 1.10、设置docker开机自启 2、安…

K8S(一)—安装部署

目录 安装部署前提以下的操作指导(在master)之前都是三台机器都需要执行 安装docker服务下面的操作仅在k8smaster执行 安装部署 前提 以下的操作指导(在master)之前都是三台机器都需要执行 关闭防火墙 [rootk8smaster ~]# vim /etc/selinux/config [rootk8smaster ~]# swa…

指针浅谈(三)

在指针浅谈(二)http://t.csdnimg.cn/SKAkD中我们讲到了const修饰指针、指针运算、野指针、assert断言和传址调用的内容,今天我们继续学习有关数组名、指针访问数组、一维数组传参的本质相关的内容,内容比较深入,如果觉得哪里讲解的不行&#…

Docker部署Nacos集群并用nginx反向代理负载均衡

首先找到Nacos官网给的Github仓库,里面有docker compose可以快速启动Nacos集群。 文章目录 一. 脚本概况二. 自定义修改1. example/cluster-hostname.yaml2. example/.env3. env/mysql.env4. env/nacos-hostname.env 三、运行四、nginx反向代理,负载均衡…

关于Pytorch和Numpy中的稀疏矩阵sparse的知识点

Pytorch和Numpy中的稀疏矩阵sparse 0 稀疏矩阵类别0.1 coo_matrix0.2 dok_matrix0.3 csr_matrix0.4 csc_matrix0.5 bsr_matrix0.6 bsc_matrix0.7 lil_matrix0.8 dia_matrix 1 pytorch中的稀疏矩阵1.1 to_sparse()1.2 to_sparse_csr()1.3 sparse_coo_tensor()1.4 sparse_csr_ten…

基于Java新人入职管理系统

基于Java新人入职管理系统 功能需求 1、个人信息管理:系统需要提供个人信息管理功能,包括新人的基本信息、联系方式、教育背景、工作经历等。 2、入职流程管理:系统需要提供入职流程管理功能,包括入职手续的办理、合同签订、入…

【JavaEE学习】初识进程概念

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【Java系列】【JaveEE学习专栏】 本专栏旨在分享学习JavaEE的一点学习心得,欢迎大家在评论区交流讨论💌 目录 一、…

AI:ElasticSearch

ElasticSearch是一款开源的分布式搜索引擎和数据分析引擎,主要用于处理海量数据并提供近实时的搜索和分析功能。它具有全文检索、结构化检索和数据分析等特点,能够满足各种复杂的搜索需求。ElasticSearch使用Java编写,可以运行在多个服务器上…

python:五种算法(GA、OOA、DBO、SSA、PSO)求解23个测试函数(python代码)

一、五种算法简介 1、遗传算法GA 2、鱼鹰优化算法OOA 3、蜣螂优化算法DBO 4、麻雀搜索算法SSA 5、粒子群优化算法PSO 二、5种算法求解23个函数 (1)23个函数简介 参考文献: [1] Yao X, Liu Y, Lin G M. Evolutionary programming made…

C++中使用汇编

在 C 中编写汇编代码通常需要使用内嵌汇编(inline assembly)的方式。内嵌汇编允许将汇编代码直接嵌入到 C 代码中,以实现对底层硬件的直接访问和控制。下面是详细解释和示例说明如何在 C 中写汇编代码: 使用内嵌汇编的语法&#x…

百度文库下载要用券?Kotlin爬虫几步解决

百度作为国内知名的网站,尤其是文库里面有各种丰富的内容,对我们学习生活都有很大的帮助,就因为其内容丰富,如果看见好用有意思的文章还用复制粘贴等方式就显得有点落后了,今天我将用我所学的爬虫知识给你们好好上一课…

基于51单片机的语音识别控制系统

0-演示视频 1-功能说明 (1)使用DHT11检测温湿度,然后用LCD12864显示,语音播放,使用STC11l08xe控制LD3320做语音识别, (2)上电时语音提示:欢迎使用声音识别系统&#xf…

go-zero开发入门之网关往rpc服务传递数据

go-zero 的网关往 rpc 服务传递数据时,可以使用 headers,但需要注意前缀规则,否则会发现数据传递不过去,或者对方取不到数据。 go-zero 的网关对服务的调用使用了第三方库 grpcurl,入口函数为 InvokeRPC: …

【vue实战项目】通用管理系统:信息列表,信息的编辑和删除

本文为博主的vue实战小项目系列中的第七篇,很适合后端或者才入门的小伙伴看,一个前端项目从0到1的保姆级教学。前面的内容: 【vue实战项目】通用管理系统:登录页-CSDN博客 【vue实战项目】通用管理系统:封装token操作…

实验制备高纯酸PFA酸纯化器材质分析,SCH亚沸蒸馏器特点是什么

.酸纯化器:也称酸蒸馏器、高纯酸提取系统、酸纯化系统、亚沸腾蒸馏器、高纯酸蒸馏纯化器。常规实验室分析中,各种酸及试剂被广泛应用于日常的样品处理及分析中。那么应该选用什么材质的酸纯化器呢 氟塑料酸纯化器,提纯酸效果好,避…

基于Python+WaveNet+MFCC+Tensorflow智能方言分类—深度学习算法应用(含全部工程源码)(四)

目录 前言引言总体设计系统整体结构图系统流程图 运行环境模块实现1. 数据预处理2. 模型构建3. 模型训练及保存4. 模型生成 系统测试1. 训练准确率2. 测试效果 相关其它博客工程源代码下载其它资料下载 前言 博主前段时间发布了一篇有关方言识别和分类模型训练的博客&#xff…

蓝桥杯小白赛第一场(1~6)(期望DP)

1、模拟 2、贪心 3、前缀和 4、猜结论 5、双指针 6、期望DP 1. 蘑菇炸弹 思路&#xff1a;一个简单的暴力模拟。 #include <bits/stdc.h> using namespace std; int main() {int n;cin >> n;vector<int>a(n , 0);for(int i 0 ; i < n ; i )cin &…

智能优化算法应用:基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.群居蜘蛛算法4.实验参数设定5.算法结果6.…