Hue开发指南 - 提交 Spark 程序

目录

 

Hue开发指南

1.Spark文件打包成一个Jar包提交Hue运行

1.1 上传Spark Jar包至HDFS文件系统

1.2.Hue中创建Spark任务

2.多jar包导入执行(依赖jar包与主程序jar包分开打包)

2.1 修改worksapce

2.2 添加程序依赖jar包


Hue开发指南

Hue是面向 Hadoop 的开源用户界面,可以让您更轻松地运行和开发 Hive 查询、管理 HDFS 中的文件、运行和开发 Pig 脚本以及管理表。

1.Spark文件打包成一个Jar包提交Hue运行

1.1 上传Spark Jar包至HDFS文件系统

上传方式不做具体介绍

 

1.2.Hue中创建Spark任务

打开Workflow

选择 ACTIONS

添加Spark任务,将Spark移动到Workflow

填写文件位置,与jar包名称

Files与Jar/py name 相同即可

添加完成后填写运行类名,运行参数

点击配置可设置提交方式

设置提交方式

 运行Spark

 

运行成功,我们可以设置Schedule进行任务定时执行

 

2.多jar包导入执行(依赖jar包与主程序jar包分开打包)

日常开发中,把所有相关依赖jar包打成一个包,后续每次程序更新都需要更新比较大jar包,我们把自己开发的源码和相关依赖jar包单独出来,后续每次只需要更新我们自己开发的源码就可以了

2.1 修改worksapce

修改workspace,可以选择程序所在目录,程序运行时会自动读取Workspace目录下名称为 lib 的目录 的jar包,所以设置Workspace时,我们在Workspace目录下创建lib目录并把依赖的jar包放在下面就可以了,下一步的 oozie.libpath 参数可以不进行设置,(这里可以不修改,修改是为了后期查看相关配置文件比较方便)

2.2 添加程序依赖jar包

单独设置目录,添加依赖jar包 ,这里很重要依赖的jar包就从这里导入

注意的是oozie.libpath 是我们上传的依赖jar包

依赖jar包不能和oozie的系统spark jar包重复,如果重复会提示异常

org.apache.oozie.action.ActionExecutorException: JA009: cache file (mapreduce.job.cache.files) scheme: "hdfs" host: "nameservice1" port: -1 file: "/jast/spark-job/lib/chill_2.11-0.8.0.jar" conflicts with cache file (mapreduce.job.cache.files) hdfs://nameservice1/user/oozie/share/lib/lib_20180925112207/spark/chill_2.11-0.8.0.jar

oozie spark引用的系统jar包在

hdfs dfs -ls /user/oozie/share/lib/lib_20180925112207/spark

可通过以下命令对我们自己依赖jar包进行去重后,再上传到依赖jar包

#删除dir1目录重复数据
rm `diff -rs dir1 dir2 |grep '相同'|awk '{print $2}'`

 

 

选择我们程序的所有相关jar包

选择后关闭,在workflow中保存

添加spark程序

刚刚修改了Workspace 这里 Files和Jar/py name 可以直接使用相对路径,(建议还是是使用绝对路径,比较明了)

 

设置执行类和启动参数

保存运行。成功。

3. 加入 Schedule  任务

在workflow中选择Schedule

填写参数并设置 执行时间

注意如果上面自己指定了 oozie.libpath ,这里也要设置 oozie.libpath ,否则提示缺少jar包

所以上面如果我们自己设置Workspace目录,并把依赖传到lib目录,这里就不用设置了,他默认会去读取

保存运行

时区问题参考:https://blog.csdn.net/zhangshenghang/article/details/84540403

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何缩小码农和高手的差距

为什么同样的时间有的人可以漂亮的完成工作,而有些人废了很大的力气也没有完成?前者我们常常称之为“大牛”,后者我们常常叫他们“菜鸟”。当然“大牛”都是相对而言的,“大牛”也不可能方方面面都非常厉害,换句话说大…

OpenResty 安装,收集日志保存到文本文件

目录 安装 1.安装相关类库 2.安装编译openresty 3.编写配置启动openresty服务 4.通过 openresty 保存日志数据到系统 安装 1.安装相关类库 yum install -y readline-devel pcre-devel openssl-devel gcc 2.安装编译openresty wget https://openresty.org/download/open…

暗时间-领悟

作者:排长链接:https://www.zhihu.com/question/20689852/answer/23227406来源:知乎著作权归作者所有,转载请联系作者获得授权。第一次看到“暗时间”这个词,我的第一反应是有点不屑,又是一个概念噱头吧。直…

Openresty Nginx 负载均衡

目录 OpenResty Openresty 服务配置文件 启动Openresty服务 测试调用接口 Nginx 负载均衡服务 nginx 配置文件 启动服务 实现功能 测试结果 这里实现个简单的负载均衡,只做功能展示(实际业务比这复杂高,单台服务器无法满足需求的情况…

总结--美丽的敷衍

我看新年 转眼间,2015已经悄然离去,正像2015年刚来时候感叹2014的白驹过隙。年年岁岁花相似,岁岁年年人不同。时间过去了,自己又有如何的不同呢?客观的说,这一年有了一定的长进,但总感觉失去/错…

Hadoop Yarn REST API未授权漏洞利用挖矿分析

目录 一、背景情况 二、 漏洞说明 攻击步骤: 三、入侵分析 四、安全建议 清理病毒 安全加固 五、IOCs 一、背景情况 5月5日腾讯云安全曾针对攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况…

读书-悟

作者:梅芳growing链接:https://www.zhihu.com/question/20689852/answer/95018631来源:知乎著作权归作者所有,转载请联系作者获得授权。《暗时间》这本书,我读过3遍,第一便是在大三时,第二遍是用…

Linux shell编程学习总结

主要内容&#xff1a; shell编程sed命令awk命令crontab定时器 什么是Shell&#xff1f; Shell是用户与内核进行交互操作的一种接口&#xff0c;目前最流行的Shell称为bash Shell Shell也是一门编程语言<解释型的编程语言>&#xff0c;即shell脚本 一个系统可以存在多…

Flink ProcessFunction 介绍使用

目录 实现功能 代码 测试 问题 官网描述&#xff1a;https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/stream/operators/process_function.html The ProcessFunction is a low-level stream processing operation, giving access to the basic build…

Flink keyby 数据倾斜问题处理

上一篇我们使用keyby后发现数据严重倾斜 https://datamining.blog.csdn.net/article/details/105316728 大概看下问题所在&#xff0c;大量数据在一个subtask中运行 这里我们使用两阶段keyby 解决该问题 之前的问题如下图所示 我们期望的是 但我们的需要根据key进行聚合统计&a…

java中正则表达式

package com.test;import java.util.Scanner;public class M1001{public static void main(String[] args) {String input null;Scanner sc new Scanner(System.in);while(sc.hasNext()){inputsc.nextLine();String regex "^1[3|4|5|7|8][0-9]{9}$";//为表达式模板…

读书-时间(反思)

每一天的时间都非常多&#xff0c;下班以后的时间&#xff0c;周末闲暇的时间&#xff0c;但是时间这么多&#xff0c;自己往往不知道该拿它来干什么&#xff0c;每天下完班以后&#xff0c;回到家&#xff0c;打开电脑&#xff0c;打开手机&#xff0c;首先看一看QQ&#xff0…

Kafka 优化参数 unclean.leader.election.enable

Kafka 某个节点挂掉&#xff0c;导致整个服务异常&#xff0c;为了保证服务容灾&#xff0c;可对下面几个参数进行调整 unclean.leader.election.enabletrue min.insync.replicas1 offsets.topic.replication.factor3 这三个配置什么意思呢? 依次来看一下&#xff1a; unclean…

linux中iptables对防火墙的操作

Iptables教程 1. iptables防火墙简介 Iptables也叫netfilter是Linux下自带的一款免费且优秀的基于包过滤的防火墙工具&#xff0c;它的功能十分强大&#xff0c;使用非常灵活&#xff0c;可以对流入、流出、流经服务器的数据包进行精细的控制。iptables是Linux2.4及2.6内核中…

读书--好书

说到好书&#xff0c;我觉得对于每一个人来说&#xff0c;都有自己人生中的一本好书&#xff0c;她的内容能够引起我们的共鸣&#xff0c;认识到自己的不足之处&#xff0c;并且能够指引我们如何去改变它&#xff0c;去战胜它&#xff0c;从而使自己获取进步&#xff0c;得到升…

Web Components入门不完全指北

目前流行的各类前端框架&#xff0c;不管是react, angular还是vue&#xff0c;都有一个共同点&#xff0c;那就是支持组件化开发&#xff0c;但事实上随着浏览器的发展&#xff0c;现在浏览器也原生支持组件式开发&#xff0c;本文将通过介绍Web Components 的三个主要概念&…

Flink 1.9 CDH 6.3 集成

目录 1.下载准备文件 2.felink csa jar包准备 3.将 Flink Parcel放入httpd目录下 4.配置CDH Flink Parcel 5.安装Flink 1.下载准备文件 https://archive.cloudera.com/csa/1.0.0.0/csd/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jarhttps://archive.cloudera.com/csa/1.0.0.0/parc…

如何花两年时间面试一个人

http://blog.sina.com.cn/s/blog_4caedc7a0102dycr.html?tj1

ssh免密登陆机制示意图

ssh免密登陆机制示意图