Hue开发指南 - 提交 Spark 程序

目录

 

Hue开发指南

1.Spark文件打包成一个Jar包提交Hue运行

1.1 上传Spark Jar包至HDFS文件系统

1.2.Hue中创建Spark任务

2.多jar包导入执行(依赖jar包与主程序jar包分开打包)

2.1 修改worksapce

2.2 添加程序依赖jar包


Hue开发指南

Hue是面向 Hadoop 的开源用户界面,可以让您更轻松地运行和开发 Hive 查询、管理 HDFS 中的文件、运行和开发 Pig 脚本以及管理表。

1.Spark文件打包成一个Jar包提交Hue运行

1.1 上传Spark Jar包至HDFS文件系统

上传方式不做具体介绍

 

1.2.Hue中创建Spark任务

打开Workflow

选择 ACTIONS

添加Spark任务,将Spark移动到Workflow

填写文件位置,与jar包名称

Files与Jar/py name 相同即可

添加完成后填写运行类名,运行参数

点击配置可设置提交方式

设置提交方式

 运行Spark

 

运行成功,我们可以设置Schedule进行任务定时执行

 

2.多jar包导入执行(依赖jar包与主程序jar包分开打包)

日常开发中,把所有相关依赖jar包打成一个包,后续每次程序更新都需要更新比较大jar包,我们把自己开发的源码和相关依赖jar包单独出来,后续每次只需要更新我们自己开发的源码就可以了

2.1 修改worksapce

修改workspace,可以选择程序所在目录,程序运行时会自动读取Workspace目录下名称为 lib 的目录 的jar包,所以设置Workspace时,我们在Workspace目录下创建lib目录并把依赖的jar包放在下面就可以了,下一步的 oozie.libpath 参数可以不进行设置,(这里可以不修改,修改是为了后期查看相关配置文件比较方便)

2.2 添加程序依赖jar包

单独设置目录,添加依赖jar包 ,这里很重要依赖的jar包就从这里导入

注意的是oozie.libpath 是我们上传的依赖jar包

依赖jar包不能和oozie的系统spark jar包重复,如果重复会提示异常

org.apache.oozie.action.ActionExecutorException: JA009: cache file (mapreduce.job.cache.files) scheme: "hdfs" host: "nameservice1" port: -1 file: "/jast/spark-job/lib/chill_2.11-0.8.0.jar" conflicts with cache file (mapreduce.job.cache.files) hdfs://nameservice1/user/oozie/share/lib/lib_20180925112207/spark/chill_2.11-0.8.0.jar

oozie spark引用的系统jar包在

hdfs dfs -ls /user/oozie/share/lib/lib_20180925112207/spark

可通过以下命令对我们自己依赖jar包进行去重后,再上传到依赖jar包

#删除dir1目录重复数据
rm `diff -rs dir1 dir2 |grep '相同'|awk '{print $2}'`

 

 

选择我们程序的所有相关jar包

选择后关闭,在workflow中保存

添加spark程序

刚刚修改了Workspace 这里 Files和Jar/py name 可以直接使用相对路径,(建议还是是使用绝对路径,比较明了)

 

设置执行类和启动参数

保存运行。成功。

3. 加入 Schedule  任务

在workflow中选择Schedule

填写参数并设置 执行时间

注意如果上面自己指定了 oozie.libpath ,这里也要设置 oozie.libpath ,否则提示缺少jar包

所以上面如果我们自己设置Workspace目录,并把依赖传到lib目录,这里就不用设置了,他默认会去读取

保存运行

时区问题参考:https://blog.csdn.net/zhangshenghang/article/details/84540403

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何缩小码农和高手的差距

为什么同样的时间有的人可以漂亮的完成工作,而有些人废了很大的力气也没有完成?前者我们常常称之为“大牛”,后者我们常常叫他们“菜鸟”。当然“大牛”都是相对而言的,“大牛”也不可能方方面面都非常厉害,换句话说大…

OpenResty 安装,收集日志保存到文本文件

目录 安装 1.安装相关类库 2.安装编译openresty 3.编写配置启动openresty服务 4.通过 openresty 保存日志数据到系统 安装 1.安装相关类库 yum install -y readline-devel pcre-devel openssl-devel gcc 2.安装编译openresty wget https://openresty.org/download/open…

Hadoop Yarn REST API未授权漏洞利用挖矿分析

目录 一、背景情况 二、 漏洞说明 攻击步骤: 三、入侵分析 四、安全建议 清理病毒 安全加固 五、IOCs 一、背景情况 5月5日腾讯云安全曾针对攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况…

Linux shell编程学习总结

主要内容&#xff1a; shell编程sed命令awk命令crontab定时器 什么是Shell&#xff1f; Shell是用户与内核进行交互操作的一种接口&#xff0c;目前最流行的Shell称为bash Shell Shell也是一门编程语言<解释型的编程语言>&#xff0c;即shell脚本 一个系统可以存在多…

Flink ProcessFunction 介绍使用

目录 实现功能 代码 测试 问题 官网描述&#xff1a;https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/stream/operators/process_function.html The ProcessFunction is a low-level stream processing operation, giving access to the basic build…

Flink keyby 数据倾斜问题处理

上一篇我们使用keyby后发现数据严重倾斜 https://datamining.blog.csdn.net/article/details/105316728 大概看下问题所在&#xff0c;大量数据在一个subtask中运行 这里我们使用两阶段keyby 解决该问题 之前的问题如下图所示 我们期望的是 但我们的需要根据key进行聚合统计&a…

linux中iptables对防火墙的操作

Iptables教程 1. iptables防火墙简介 Iptables也叫netfilter是Linux下自带的一款免费且优秀的基于包过滤的防火墙工具&#xff0c;它的功能十分强大&#xff0c;使用非常灵活&#xff0c;可以对流入、流出、流经服务器的数据包进行精细的控制。iptables是Linux2.4及2.6内核中…

Web Components入门不完全指北

目前流行的各类前端框架&#xff0c;不管是react, angular还是vue&#xff0c;都有一个共同点&#xff0c;那就是支持组件化开发&#xff0c;但事实上随着浏览器的发展&#xff0c;现在浏览器也原生支持组件式开发&#xff0c;本文将通过介绍Web Components 的三个主要概念&…

Flink 1.9 CDH 6.3 集成

目录 1.下载准备文件 2.felink csa jar包准备 3.将 Flink Parcel放入httpd目录下 4.配置CDH Flink Parcel 5.安装Flink 1.下载准备文件 https://archive.cloudera.com/csa/1.0.0.0/csd/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jarhttps://archive.cloudera.com/csa/1.0.0.0/parc…

ssh免密登陆机制示意图

ssh免密登陆机制示意图

CDH 6.x 安装 Phoenix 服务

最近有个新项目启动&#xff0c;版本升级到6.3&#xff0c;发现CDH6.2 版本已经支持Phoenix parcel安装 一、准备文件 下载 https://archive.cloudera.com/phoenix/6.2.0/csd/PHOENIX-1.0.jar 下载parcel #目录 https://archive.cloudera.com/phoenix/6.2.0/parcels/ #根据…

域名服务的工作流程

域名服务的工作流程

Kafka 消费者组 Rebalance 详解

Rebalance作用 Rebalance 本质上是一种协议&#xff0c;主要作用是为了保证消费者组&#xff08;Consumer Group&#xff09;下的所有消费者&#xff08;Consumer&#xff09;消费的主体分区达成均衡。 比如&#xff1a;我们有10个分区&#xff0c;当我们有一个消费者时&…

Kafka JMX 监控 之 jmxtrans + influxdb + grafana

目录 效果图 环境准备 安装 influxdb 安装我们刚刚下载 influxdb rpm文件 查看默认配置 修改参数 启动 influxdb 查看启动状态 设置基本配置 influxdb 其他命令扩展 安装 jmxtrans 可能遇到的异常 验证jmxtrans是否成功运行 安装 Grafana 安装 influxDB 与 Grafa…

实例浅析epoll的水平触发和边缘触发,以及边缘触发为什么要使用非阻塞IO

一.基本概念 我们通俗一点讲&#xff1a; Level_triggered(水平触发)&#xff1a;当被监控的文件描述符上有可读写事件发生时&#xff0c;epoll_wait()会通知处理程序去读写。如果这次没有把数据一次性全部读写完(如…

UML序列图

UML学习&#xff08;三&#xff09;-----序列图 UML的模型中可分为两种&#xff0c;动态模型和静态模型。用例图、类图和对象图都是UML中的静态结构模型。而在UML系统动态模型的其中一种就是交互视图&#xff0c;它描述了执行系统功能的各个角色之间相互传递消息的顺序关系。序…

OpenTSDB 开发指南之 查询数据

前面博主写了一篇文章去介绍opentsdb的http接口的使用方法,但是某一些接口的使用还是比较复杂&#xff0c;这篇文章会通过example来详细讲述opentsdb的一些特性。 本文的举的例子有这些&#xff1a; 基本的写入和查询数据的注释和说明子查询查询中的filters使用查询数据的rat…

libcurl使用方法

原文地址&#xff1a;http://curl.haxx.se/libcurl/c/libcurl-tutorial.html 译者&#xff1a;JGood(http://blog.csdn.net/JGood ) 译者注&#xff1a;这是一篇介绍如何使用libcurl的入门教程。文档不是逐字逐句按原文翻译&#xff0c;而是根据笔者对libcurl的理解&#xff0c…

OpenTSDB 开发指南之 Grafana 展示OpenTSDB监控数据

目录 准备数据 在Grafana创建OpenTSDB连接 创建一个仪表盘 统计 准备数据 将数据插入OpenTSDB {"metric":"jast.data","value":1023,"timestamp":1588742563,"tags":{"type":"jast-graph-data"}}…