Azkaban简介及安装教程

前言:

最近在实际工作中玩到了Azkaban,虽然之前有简单的接触,但是真正用到的时候,才能体会到这个工具的实用性有多强。下面就写个系列文章来记录下azkaban从简介及安装配置再到简单使用的一个过程。

1、概述

1.1、为什么需要工作流调度系统

  • 一个完整的数据分析系统通常都是由大量任务单元组成:
    shell脚本程序,java程序,mapreduce程序、hive脚本等
  • 各任务单元之间存在时间先后及前后依赖关系
  • 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:

  1. 通过Hadoop先将原始数据同步到HDFS上;
  2. 借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;
  3. 需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;
  4. 将明细数据进行复杂的统计分析,得到结果报表信息;
  5. 需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。
    以上整个流程组成了我们的一个job,如果采用传统的linux定时任务去处理这个流程的话,存在一个巨大的隐患,job失败率很高,流程无法控制,没有预警机制。所以类似的这种工作流调度器的工具就应运而生!

1.2、工作流调度实现方式

简单的任务调度:直接使用linux的crontab来定义;
复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如ooize、azkaban等

1.3、常见工作流调度系统及其特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考:
在这里插入图片描述

1.4、Azkaban介绍

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
它有如下功能特点:

  • Web用户界面
  • 方便上传工作流
  • 方便设置任务之间的关系
  • 调度工作流 认证/授权(权限的工作)
  • 能够杀死并重新启动工作流
  • 模块化和可插拔的插件机制
  • 项目工作区
  • 工作流和任务的日志记录和审计

2、Azkaban安装部署

2.1、准备工作

Azkaban Web服务器
azkaban-web-server-2.5.0.tar.gz
Azkaban执行服务器
azkaban-executor-server-2.5.0.tar.gz

MySQL
目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root.

下载地址:http://azkaban.github.io/downloads.html

2.2、azkaban web服务器安装

将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行
在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序

解压azkaban-web-server-2.5.0.tar.gz
命令: tar –zxvf azkaban-web-server-2.5.0.tar.gz
将解压后的azkaban-web-server-2.5.0 移动到 azkaban目录中,并重新命名 webserver
命令: mv azkaban-web-server-2.5.0 ../azkabancd ../azkabanmv azkaban-web-server-2.5.0  server

2.3、azkaban 执行服器安装

解压azkaban-executor-server-2.5.0.tar.gz 命令:tar –zxvf
azkaban-executor-server-2.5.0.tar.gz
将解压后的azkaban-executor-server-2.5.0 移动到 azkaban目录中,并重新命名 executor 命令:mv
azkaban-executor-server-2.5.0 …/azkaban cd …/azkaban mv
azkaban-executor-server-2.5.0 executor

azkaban脚本导入 解压: azkaban-sql-script-2.5.0.tar.gz 命令:tar –zxvf
azkaban-sql-script-2.5.0.tar.gz 将解压后的mysql 脚本,导入到mysql中: 进入mysql
mysql> create database azkaban; mysql> use azkaban; Database changed
mysql> source /home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;

2.4、创建SSL配置

参考地址: http://docs.codehaus.org/display/JETTY/How+to+configure+SSL
命令: keytool -keystore keystore -alias jetty -genkey -keyalg RSA
运行此命令后,会提示输入当前生成 keystor的密码及相应信息,输入的密码请劳记,信息如下:

输入keystore密码: 
再次输入新密码:
您的名字与姓氏是什么?[Unknown]: 
您的组织单位名称是什么?[Unknown]: 
您的组织名称是什么?[Unknown]: 
您所在的城市或区域名称是什么?[Unknown]: 
您所在的州或省份名称是什么?[Unknown]: 
该单位的两字母国家代码是什么[Unknown]:  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗?[否]:  y

输入的主密码
(如果和 keystore 密码相同,按回车):
再次输入新密码:
完成上述工作后,将在当前目录生成 keystore 证书文件,将keystore 考贝到 azkaban web服务器根目录中.如:cp keystore azkaban/server

2.5、配置文件

注:先配置好服务器节点上的时区
1、先生成时区配置文件Asia/Shanghai,用交互式命令 tzselect 即可
2、拷贝该时区文件,覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

azkaban web服务器配置
进入azkaban web服务器安装目录 conf目录

  • 修改azkaban.properties文件

命令vi azkaban.properties
内容说明如下:

#Azkaban Personalization Settings
azkaban.name=Test                           #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban                               #描述
azkaban.color=#FF3601                                                 #UI颜色
azkaban.default.servlet.path=/index                         #
web.resource.dir=web/                                                 #默认根web目录
default.timezone.id=Asia/Shanghai                           #默认时区,已改为亚洲/上海 默认为美国#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager   #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml              #用户配置,具体配置参加下文#Loader for projects
executor.global.properties=conf/global.properties    # global配置文件所在位置
azkaban.project.dir=projects                                                #database.type=mysql                                                              #数据库类型
mysql.port=3306                                                                       #端口号
mysql.host=localhost                                                      #数据库连接IP
mysql.database=azkaban                                                       #数据库实例名
mysql.user=root                                                                 #数据库用户名
mysql.password=root                                                          #数据库密码
mysql.numconnections=100                                                  #最大连接数# Velocity dev mode
velocity.dev.mode=false
# Jetty服务器属性.
jetty.maxThreads=25                                                               #最大线程数
jetty.ssl.port=8443                                                                   #Jetty SSL端口
jetty.port=8081                                                                         #Jetty端口
jetty.keystore=keystore                                                          #SSL文件名
jetty.password=123456                                                             #SSL文件密码
jetty.keypassword=123456                                                      #Jetty主密码 与 keystore文件相同
jetty.truststore=keystore                                                                #SSL文件名
jetty.trustpassword=123456                                                   # SSL文件密码# 执行服务器属性
executor.port=12321                                                               #执行服务器端口# 邮件设置
mail.sender=xxxxxxxx@163.com                                       #发送邮箱
mail.host=smtp.163.com                                                       #发送邮箱smtp地址
mail.user=xxxxxxxx                                       #发送邮件时显示的名称
mail.password=**********                                                 #邮箱密码
job.failure.email=xxxxxxxx@163.com                              #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com                            #任务成功时发送邮件的地址
lockdown.create.projects=false                                           #
cache.directory=cache                                                            #缓存目录
  • azkaban 执行服务器executor配置

进入执行服务器安装目录conf,修改azkaban.properties
vi azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai                                              #时区# Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes                   #jobtype 插件所在位置#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects#数据库设置
database.type=mysql                                                                       #数据库类型(目前只支持mysql)
mysql.port=3306                                                                                #数据库端口号
mysql.host=192.168.20.200                                                           #数据库IP地址
mysql.database=azkaban                                                                #数据库实例名
mysql.user=root                                                                       #数据库用户名
mysql.password=root                                  #数据库密码
mysql.numconnections=100                                                           #最大连接数# 执行服务器配置
executor.maxThreads=50                                                                #最大线程数
executor.port=12321                                                               #端口号(如修改,请与web服务中一致)
executor.flow.threads=30                                                                #线程数
  • 用户配置

进入azkaban web服务器conf目录,修改azkaban-users.xml
vi azkaban-users.xml 增加 管理员用户

<azkaban-users><user username="azkaban" password="azkaban" roles="admin" groups="azkaban" /><user username="metrics" password="metrics" roles="metrics"/><user username="admin" password="admin" roles="admin,metrics" /><role name="admin" permissions="ADMIN" /><role name="metrics" permissions="METRICS"/>
</azkaban-users>

2.6、启动

  • web服务器

在azkaban web服务器目录下执行启动命令

bin/azkaban-web-start.sh

注:在web服务器根目录运行
或者启动到后台

nohup  bin/azkaban-web-start.sh  1>/tmp/azstd.out  2>/tmp/azerr.out &
  • 执行服务器

在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

注:只能要执行服务器根目录运行

启动完成后,在浏览器(建议使用谷歌浏览器)中输入https://服务器IP地址:8443 ,即可访问azkaban服务了.在登录中输入刚才新的户用名及密码,点击 login.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456374.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

azkaban的操作指南

前言&#xff1a; 最近在实际工作中玩到了Azkaban&#xff0c;虽然之前有简单的接触&#xff0c;但是真正用到的时候&#xff0c;才能体会到这个工具的实用性有多强&#xff0c;总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。 1、工作流调度…

ActiveMq使用笔记

java JMS技术 .1. 什么是JMS JMS即Java消息服务&#xff08;Java Message Service&#xff09;应用程序接口是一个Java平台中关于面向消息中间件&#xff08;MOM&#xff09;的API&#xff0c;用于在两个应用程序之间&#xff0c;或分布式系统中发送消息&#xff0c;进行异步…

导入Anaconda中的第三方库运行时报错:ImportError: Missing required dependencies ['pandas']

今天碰到一个大坑&#xff0c;花了大半天才搞明白问题出在哪来。事情的经过是这样的&#xff1a;博主下午手贱把已将装好anaconda2给卸载了&#xff08;同时装了2和3&#xff09;&#xff0c;然后再次安装anconda2后&#xff0c;却发现配置完pycharm的解释器后&#xff0c;代码…

BZOJ2005 NOI2010 能量采集 欧拉函数

题意&#xff1a;求$\sum\limits_{i 1}^N {\sum\limits_{j 1}^M {f(i,j)} } $&#xff0c;其中f(i,j)(0,0)与(i,j)连线上点的数量 题解&#xff1a; 如果一个点(x,y)在(0,0)与(x,y)的连线上&#xff0c;则有gcd(x,y)gcd(x,y)。因此f(i,j)(gcd(i,j)gcd(i,j))且i<i,j<j的…

python子类继承父类特性,pycharm上面已经提示继承了,为什么会报没有该特性的错误?

因为在子类里覆盖了父类的__init__ 如果需要调用父类用super class A(object):def __init__(self):self.a 1def fun(self):print self.aclass B(A):def __init__(self):self.b 2super(B, self).__init__()def fun(self):print self.aprint self.bB().fun()

Hadoop伪分布安装详解(一)

注&#xff1a;以下截图针对Ubuntu操作系统&#xff0c;对Centos步骤类似。请读者选择不同镜像即可。 第一部分&#xff1a;VMware WorkStation10 安装 1.安装好VMware10虚拟机软件并下载好Ubuntu16.04 LTS 64位版的镜像包 2.打开VMware10虚拟机软件&#xff0c;选择“创建新的…

C++_const常成员作用

介绍 常成员是什么 1.常成员关键词为&#xff1a;const 2.常成员有&#xff1a;常成员变量、常成员函数、常成员对象 常成员有什么用 1.常成员变量&#xff1a;用于在程序中定义不可修改内部成员变量的函数 2.常成员函数&#xff1a;只能够访问成员变量&#xff0c;不可以修改成…

Unlicensed ARC session – terminating!

问题描述 近日&#xff0c;发现ArcGIS10.4中存在很多bug&#xff0c;而且费了好多时间去测试它&#xff0c;最终决定改用10.1。在降级程序时遇到许可问题。 重装ArcGIS10.1后&#xff0c;打开工程&#xff0c;所有引用都自动映射&#xff0c;没报任何错误&#xff0c;清理重新生…

SQLAlchemy - Column详解

SQLAlchemy - Column详解 Column常用参数&#xff1a; default&#xff1a;默认值 nullable&#xff1a;是否可有 primary_key&#xff1a;是否为主键 unique&#xff1a;是否唯一 autoincrement&#xff1a;是否自动增长 onupdate&#xff1a;更新的时候执行的函数 name&…

Linux命令三剑客:grep、sed、awk总结

文章目录前言一、grep命令语法实例grep结合pattern正则二、sed命令语法案例三、awk命令语法实例前言 最近看到了几篇关于linux命令grep、sed、awk的文章&#xff0c;这里总结下&#xff0c;方便后面使用。 一、grep grep命令&#xff08;grep的全称&#xff1a;Global searc…

Git常用指令及功能总结

文章目录前言&#xff1a;1、常用的git指令2、常用git功能及操作2.1、下载代码&#xff1a;2.2、当前分支和master保持一致2.3、修改代码后提交代码到指定分支2.4、版本回退&#xff08;时空穿梭机&#xff09;2.5、概念工作区和暂存区2.6、添加远程库2.7、分支管理2.8、标签管…

MacOS下MySQL配置

先去官网下载一个 MySQL for mac http://www.cnblogs.com/xiaobo-Linux/ 命令行运行终端&#xff0c;运行下面两条命令&#xff1a; 12alias mysql/usr/local/mysql/bin/mysqlalias mysqladmin/usr/local/mysql/bin/mysqladmin方便终端直接输入mysql命令&#xff0c;而不是必须…

SparkSQL-从0到1认识Catalyst

文章目录前言正文预备知识&#xff0d;Tree&RuleCatalyst工作流程ParserAnalyzerOptimizerSparkSQL执行计划前言 这篇文章是转载一位大神的文章&#xff0c;为什么要转载的&#xff0c;实在是因为写的太经典了&#xff0c;所以忍不住希望能有更多的人可以看到。后续还会转…

为什么程序员一定要加班?

摘要&#xff1a; 一提到程序员&#xff0c;大多数人的印象大概就是死宅、无趣、没有私人生活&#xff0c;除了上班写写写代码&#xff0c;加班写代码更是标配。似乎在深夜顶着鸡窝头&#xff0c;目光呆滞&#xff0c;面无表情敲键盘的场景才是一个程序员的真实写照。 当然&…

SparkSQL之Join原理

文章目录前言&#xff1a;Join背景介绍Join常见分类以及基本实现机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort-Merge Join总结前言&#xff1a; 写SQL的时候很多时候都有用到join语句&#xff0c;但是我们真的有仔细想过数据在join的过程到底是怎么样的吗&#xff…

SQLAlchemy中filter_by()和filter()的用法不同

filter_by() 和 filter() 的最主要的区别&#xff1a; 模块语法><&#xff08;大于和小于&#xff09;查询and_和or_查询filter_by()直接用属性名&#xff0c;比较用不支持不支持filter()用类名.属性名&#xff0c;比较用支持支持 谈 filter_by() 的语法之前先看下 filt…

python爬虫从入门到放弃(六)之 BeautifulSoup库的使用

上一篇文章的正则&#xff0c;其实对很多人来说用起来是不方便的&#xff0c;加上需要记很多规则&#xff0c;所以用起来不是特别熟练&#xff0c;而这节我们提到的beautifulsoup就是一个非常强大的工具&#xff0c;爬虫利器。 beautifulSoup “美味的汤&#xff0c;绿色的浓汤…

SparkHiveSQL中Join操作的谓词下推?

前言&#xff1a; SparkSQL和HiveSQL的Join操作中也有谓词下推&#xff1f;今天就通过大神的文章来了解下。同样&#xff0c;如有冒犯&#xff0c;请联系。 正文 上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法&#xff0d;broadcast hash join 、shuffle h…

六种方式实现生产者消费者(未完)

2019独角兽企业重金招聘Python工程师标准>>> 一、利用Object对象是wait和notify\notifyAll package com.jv.parallel.consumerandproducer.objectwait;public class Car {private volatile int flag 0;public void showConsumer(){System.out.println("I am a…

SQL中基于代价的优化

还记得笔者在上篇文章无意中挖的一个坑么&#xff1f;如若不知&#xff0c;强烈建议看官先行阅读前面两文&#xff0d;《SparkSQL Join原理》和《Join中竟然也有谓词下推?》 第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景&#xff0c;第二篇文章在第一…