海豚调度系列之:任务类型——SPARK节点

海豚调度系列之:任务类型——SPARK节点

  • 一、SPARK节点
  • 二、创建任务
  • 三、任务参数
  • 四、任务样例
    • 1.spark submit
    • 2.spark sql
  • 五、注意事项:

一、SPARK节点

Spark 任务类型用于执行 Spark 应用。对于 Spark 节点,worker 支持两个不同类型的 spark 命令提交任务:

  • (1) spark submit 方式提交任务。
  • (2) spark sql 方式提交任务。

二、创建任务

  • 点击项目管理 -> 项目名称 -> 工作流定义,点击”创建工作流”按钮,进入 DAG 编辑页面:
  • 拖动工具栏的 任务节点到画板中。

三、任务参数

  • 程序类型:支持 Java、Scala、Python 和 SQL 四种语言。
  • 主函数的 Class:Spark 程序的入口 Main class 的全路径。
  • 主程序包:执行 Spark 程序的 jar 包(通过资源中心上传)。
  • SQL脚本:Spark sql 运行的 .sql 文件中的 SQL 语句。
  • 部署方式:(1) spark submit 支持 cluster、client 和 local 三种模式。 (2) spark sql 支持 client 和 local 两种模式。
  • 命名空间(集群):若选择命名空间(集群),则以原生的方式提交至所选择 K8S 集群执行,未选择则提交至 Yarn 集群执行(默认)。
  • 任务名称(可选):Spark 程序的名称。
  • Driver 核心数:用于设置 Driver 内核数,可根据实际生产环境设置对应的核心数。
  • Driver 内存数:用于设置 Driver 内存数,可根据实际生产环境设置对应的内存数。
  • Executor 数量:用于设置 Executor 的数量,可根据实际生产环境设置对应的内存数。
  • Executor 内存数:用于设置 Executor 内存数,可根据实际生产环境设置对应的内存数。
  • Yarn 队列:用于设置 Yarn 队列,默认使用 default 队列。
  • 主程序参数:设置 Spark 程序的输入参数,支持自定义参数变量的替换。
  • 选项参数:设置Spark命令的选项参数,例如–jars、–files、–archives、–conf。
  • 资源:如果其他参数中引用了资源文件,需要在资源中选择指定。
  • 自定义参数:是 Spark 局部的用户自定义参数,会替换脚本中以 ${变量} 的内容。

四、任务样例

1.spark submit

执行 WordCount 程序

本案例为大数据生态中常见的入门案例,常应用于 MapReduce、Flink、Spark 等计算框架。主要为统计输入的文本中,相同的单词的数量有多少。

在 DolphinScheduler 中配置 Spark 环境
若生产环境中要是使用到 Spark 任务类型,则需要先配置好所需的环境。配置文件如下:bin/env/dolphinscheduler_env.sh。

在这里插入图片描述
上传主程序包
在使用 Spark 任务节点时,需要利用资源中心上传执行程序的 jar 包。

当配置完成资源中心之后,直接使用拖拽的方式,即可上传所需目标文件。

在这里插入图片描述
配置 Spark 节点

根据上述参数说明,配置所需的内容即可。

在这里插入图片描述

2.spark sql

执行 DDL 和 DML 语句

本案例为创建一个视图表 terms 并写入三行数据和一个格式为 parquet 的表 wc 并判断该表是否存在。程序类型为 SQL。将视图表 terms 的数据插入到格式为 parquet 的表 wc。

在这里插入图片描述

五、注意事项:

注意:

  • JAVA 和 Scala 只用于标识,使用 Spark 任务时没有区别。如果应用程序是由 Python 开发的,那么可以忽略表单中的参数Main Class。参数SQL脚本仅适用于 SQL 类型,在 JAVA、Scala 和 Python 中可以忽略。
  • SQL 目前不支持 cluster 模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/741767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

53、WEB攻防——通用漏洞CRLF注入URL重定向资源处理拒绝服务

文章目录 CRLF注入原理&检测&利用URL重定向web拒绝服务 CRLF注入原理&检测&利用 URL重定向 就是url中存在urlhttps://xxx,重定向的页面没有限制。主要用来做钓鱼。 web拒绝服务 例如,图片的长宽参数由前端传入,恶意的数据…

分布式调用与高并发处理(二)| Dubbo

文章目录 Dubbo概念_什么是分布式系统单机架构集群架构分布式架构单机、集群和分布式的区别 Dubbo概念_什么是RPCRPC两个作用:常见 RPC 技术和框架: Dubbo概念_简介Dubbo能做什么Dubbo支持的协议 Dubbo概念_核心组件注册中心Registry服务提供者Provider服…

直播相关——声网rtc SDK

声网 SDK项目集成与api使用整理 遥想约4年前,也自行调研过,虽然最终没有在实际项目中落地。 声网Android端集成与一对一音视频功能实现 现在,终于要开始在项目中正式落地了,而声网也从原来的v3.x升级到了v4.x版本了。根据官网介绍…

别再写传统简历了!AI简历5个超实用的功能,助你求职一臂之力(强烈建议收藏)

你们在制作简历时,是不是基本只关注两件事:简历模板,还有基本信息的填写。 当你再次坐下来更新你的简历时,可能会发现自己不自觉地选择了那个“看起来最好看的模板”,填写基本信息,却没有深入思考如何使简历更具吸引力。这其实是一个普遍现象:许多求职者仍停留在传统简历…

瑞萨:推迟加薪并裁员 | 百能云芯

随着全球半导体市场进入缓慢复苏阶段,日本汽车和工业芯片巨头瑞萨电子近期宣布了一系列重要的经营决策。据外媒报道,瑞萨电子已决定推迟今年4月至10月的定期加薪,并在自2023年11月以来进行了有限规模的裁员,以应对市场的变化和压力…

LC3014 输入单词需要的最少按键次数Ⅰ与方法内容的易读性

题目 刷题做到力扣 3014,题目要求设计电话键盘上的按键映射,返回按出 word 单词的最小按键次数,1 ≤ word.length ≤ 26,且仅由小写英文字母组成,所有字母互不相同 我的题解 简单题,略加思索拿下&#x…

代码随想录算法训练营第36天—动态规划04 | ● 背包问题 ● 01背包 (二维数组解法和滚动数组解法) ● *416. 分割等和子集

背包问题 常见的背包问题类型(大厂面试重点掌握01背包和完全背包即可)题目描述:有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品能用*次,求解怎么装物品使得装入…

识别恶意IP地址的有效方法

在互联网的环境中,恶意IP地址可能会对网络安全造成严重威胁,例如发起网络攻击、传播恶意软件等。因此,识别恶意IP地址是保护网络安全的重要一环。IP数据云将探讨一些有效的方法来识别恶意IP地址。 IP地址查询:https://www.ipdata…

面试几个问题总结

如何保证MQ高可用 RabbitMQ 高可用性保证: 镜像队列(Mirrored Queues) 镜像集群模式:这是RabbitMQ中最常用的实现高可用的方式。在一个镜像队列中,同一队列会被复制到多个节点上,形成一个镜像队列集合。当其中一个节点故障时,其他拥有相同队列镜像的节点可以继续提供服…

代码随想录算法训练营第七天| 344.反转字符串,541.反转字符串Ⅱ,卡码网:54.替换数字,151.翻转字符串里的单词,卡码网:55.右旋转字符串

344.反转字符串 文章讲解:代码随想录 视频讲解:字符串基础操作! | LeetCode:344.反转字符串_哔哩哔哩_bilibili 题目链接:. - 力扣(LeetCode) 解题思路: 无 时间复杂度: O(n)空间复…

S5PV210_视频编解码项目_裸机开发:实现按键的外部中断处理

加粗样式本文所作内容: 基于S5PV210芯片实现按键的外部中断处理程序,搭建中断处理流程框架 S5PV210对于中断处理的操作流程 1 外部中断得到触发: 1)外部中断在初始化阶段得到使能 2)外界达到了外部中断的触发条件 …

汉诺塔问题代码写法的详细解析

汉诺塔游戏规则: 规则: 汉诺塔问题是一个经典的问题。汉诺塔(Hanoi Tower),又称河内塔,源于印度一个古老传说。大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着…

有来团队后台项目-解析3

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、引入Elment-plus安装element-plus安装icons修改tsconfig.json (可选)配置按需自动引入验证是否导入成功展示效果typings 文件夹里生成两个文件总结一、引入Elment-plus elementplus 安装el…

30天学会QT(进阶)--------------第二天(创建项目)

1、如何规范的创建一个项目 由于本人也是从其他的项目上学来的,所以也不算是业界规范,每个公司或者个人都有自己的方式去创建项目,项目的创建是本着简洁,明了,方便而言的,所以对于我来说,不繁琐…

案例--某站视频爬取

众所周知,某站的视频是: 由视频和音频分开的。 所以我们进行获取,需要分别获得它的音频和视频数据,然后进行音视频合并。 这么多年了,某站还是老样子,只要加个防盗链就能绕过。(防止403&#xf…

蓝桥杯刷题(五)

[蓝桥杯 2022 省 B] 刷题统计 题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 样例 #2样例输入 #2样例输出 #2 提示 题目描述 小明决定从下周一开始努力刷题准备蓝桥杯竞赛。他计划周一至周五每天做 a a…

RocketMQ学习笔记三(面试题)

【RocketMQ面试题(23道)】-CSDN博客 ------------------------------------------------------------------------------------------------ 最好的学习资源在官网:初识RocketMQ | RocketMQ (apache.org) 以下内容来源于官网哦。 基本概念…

fs模块 文件写入 之 追加写入

文件的同步、异步追加写入: 一、异步追加 (1)语法:fs.appendFile(path,data,[options],callback(data,err)) (2)操作 1》引入fs模块 const fsrequire(fs); 2》调用appendFile fs.appendFile(./我可以…

大数据开发(HBase面试真题-卷一)

大数据开发(HBase面试真题) 1、请解释Hive和HBase之间的主要区别?2、描述一下Apache HBase与关系数据库之间有何区别?3、简要介绍HDFS和HBase,并描述它们适用的场景。4、HBase Column Family的概念是什么?5…

如何发现并防范“隐蔽式”CC攻击

网络安全是当今互联网时代不可忽视的重要议题。随着科技的发展,黑客渗透技术也日益复杂和潜在危险。德迅云安全为用户提供全方位的保护,确保用户信息安全 http&https是什么? HTTP(Hypertext Transfer Protocol,超…