Azkaban教程[通俗易懂]

一、简介

Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系

为什么需要工作流调度？

Azkaban教程[通俗易懂]

一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等。各任务单元之间存在时间先后及前后依赖关系，为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

简单的任务调度：直接使用 linux 的 crontab 来定义。复杂的任务调度：在hadoop领域，常见的工作流调度器有Oozie, Azkaban,Cascading,Hamake等

二、各种调度工具特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较，尽管这些工作流调度器能够解决的需求场景基本一致，但在设计理念，目标用户，应用场景等方面还是存在显著的区别，在做技术选型的时候，可以提供参考

特性	Hamake	Oozie	Azkaban	Cascading
工作流描述语言	XML	XML (xPDL based)	text file with key/value pairs	Java API
依赖机制	data-driven	explicit	explicit	explicit
是否要web容器	No	Yes	Yes	No
进度跟踪	console/log messages	web page	web page	Java API
Hadoop job调度支持	no	yes	yes	yes
运行模式	command line utility	daemon	daemon	API
Pig支持	yes	yes	yes	yes
事件通知	no	no	no	yes
需要安装	no	yes	yes	no
支持的hadoop版本	0.18+	0.20+	currently unknown	0.18+
重试支持	no	workflownode evel	yes	yes
运行任意命令	yes	yes	yes	yes
Amazon EMR支持	yes	no	currently unknown	yes

Azkaban与Oozie对比

对市面上最流行的两种调度器，给出以下详细对比，以供技术选型参考。总体来说，ooize相比azkaban是一个重量级的任务调度系统，功能全面，但配置使用也更复杂。如果可以不在意某些功能的缺失，轻量级调度器azkaban是很不错的候选对象。

三、安装配置

1、解压安装，需要依赖mysql建库数据，尽量在有mysql、hive等机器上安装

unzip 文件 -d apps/    
azkaban-web-server-2.5.0.tar.gz
azkaban-executor-server-2.5.0.tar.gz
azkaban-sql-script-2.5.0.tar.gz

Jetbrains全家桶1年46，售后保障稳定

2、创建SSL配置，生成 keystore 的密码及相应信息后续配置文件用到

[root@hdp-1 ~]#  keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入 keystore 密码： 
再次输入新密码:
您的名字与姓氏是什么？
  [Unknown]： 
您的组织单位名称是什么？
  [Unknown]： 
您的组织名称是什么？
  [Unknown]： 
您所在的城市或区域名称是什么？
  [Unknown]： 
您所在的州或省份名称是什么？
  [Unknown]： 
该单位的两字母国家代码是什么
  [Unknown]：  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗？
  [否]：  y

输入<jetty>的主密码
        （如果和 keystore 密码相同，按回车）： 
再次输入新密码:

3、将 keystore 拷贝到 azkaban web 服务器根目录中

[root@hdp-1 hadoop-2.7.2]$ mv keystore /root/apps/azkaban/azkaban-web-2.5.0

4、时间同步配置
先配置好服务器节点上的时区
1）如果在 /usr/share/zoneinfo/ 这个目录下不存在时区配置文件 Asia/Shanghai，就要用 tzselect 生成。

[root@hdp-8 azkaban-web-2.5.0]# tzselect
Please identify a location so that time zone rules can be set correctly.
Please select a continent or ocean.
 1) Africa
 2) Americas
 3) Antarctica
 4) Arctic Ocean
 5) Asia
 6) Atlantic Ocean
 7) Australia
 8) Europe
 9) Indian Ocean
10) Pacific Ocean
11) none - I want to specify the time zone using the Posix TZ format.
#? 5
Please select a country.
 1) Afghanistan          18) Israel            35) Palestine
 2) Armenia          19) Japan         36) Philippines
 3) Azerbaijan          20) Jordan            37) Qatar
 4) Bahrain          21) Kazakhstan        38) Russia
 5) Bangladesh          22) Korea (North)     39) Saudi Arabia
 6) Bhutan          23) Korea (South)     40) Singapore
 7) Brunei          24) Kuwait            41) Sri Lanka
 8) Cambodia          25) Kyrgyzstan        42) Syria
 9) China          26) Laos          43) Taiwan
10) Cyprus          27) Lebanon           44) Tajikistan
11) East Timor          28) Macau         45) Thailand
12) Georgia          29) Malaysia          46) Turkmenistan
13) Hong Kong          30) Mongolia          47) United Arab Emirates
14) India          31) Myanmar (Burma)       48) Uzbekistan
15) Indonesia          32) Nepal         49) Vietnam
16) Iran          33) Oman          50) Yemen
17) Iraq          34) Pakistan
#? 9
Please select one of the following time zone regions.
1) Beijing Time
2) Xinjiang Time
#? 1
The following information has been given:
    China
    Beijing Time
Therefore TZ='Asia/Shanghai' will be used.
Local time is now:    Wed Jun 14 09:16:46 CST 2017.
Universal Time is now:    Wed Jun 14 01:16:46 UTC 2017.
Is the above information OK?
1) Yes
2) No
#? 1

2）拷贝该时区文件，覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3）集群时间同步
sudo date -s ‘2017-06-14 09:23:45’
hwclock -w

5、配置文件
1 Web 服务器配置
1）进入 azkaban web 服务器安装目录 conf 目录，打开 azkaban.properties 文件

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=lucasma
jetty.keypassword=lucasma
jetty.truststore=keystore
jetty.trustpassword=lucasma

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=xxxxxxxx@163.com
mail.host=smtp.163.com 
job.failure.email=xxxxxxxx@163.com
job.success.email=xxxxxxxx@163.com

lockdown.create.projects=false

cache.directory=cache

2）web 服务器用户配置

在 azkaban web 服务器安装目录 conf 目录，按照如下配置修改 azkaban-users.xml 文件，增加管理员用户。

<azkaban-users>
    <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
    <user username="metrics" password="metrics" roles="metrics"/>
    <user username="admin" password="admin" roles="admin,metrics" />
    <role name="admin" permissions="ADMIN" />
    <role name="metrics" permissions="METRICS"/>
</azkaban-users>

2、执行服务器配置
1）进入执行服务器安装目录 conf，打开 azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

3、mysql建库建表

mysql > CREATE DATABASE azkaban
mysql >use azkaban
mysql >source /root/apps/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql

6、启动 web 服务器
在azkaban web服务器目录下执行启动命令 bin内执行可能会造成ui界面没有css样式

 bin/azkaban-web-start.sh

启动执行服务器在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

启动完成后，在浏览器(建议使用谷歌浏览器)中输入：
https://hdp-1:8443，即可访问 azkaban 服务了。在登录中输入刚才新的户用名及密码，点击 login。

四、Azkaban实战

1、单一job实战

创建job描述文件

vim command.job

#command.job
type=command                                                    
command=echo hello！xin

将job文件打包成zip文件 zip command.job，通过azkaban的web管理平台创建project并上传job压缩包，创建project，执行execute

2、多job工作流flow

创建有依赖关系的多个job描述，第一个job：foo.job

# foo.job
type=command
command=echo foo

第二个job：bar.job依赖foo.job

# bar.job
type=command
dependencies=foo
command=echo bar

3、操作hadoop

vim fs.job 显示hdfs所有文件

# fs.job
type=command
command=hadoop fs -lsr /

操作hive，hive脚本test.sql

use shcool;
drop table IF EXISTS teacher;
create table teacher(id int,name string,age int) row format delimited fields terminated by ',' ;
load data inpath 'file:///root/hiveinput.txt' into table teacher;
select * from aztest;

#job文件hivef.job
# hivef.job
type=command
command=hive -f 'test.sql'

MapReduce 任务将 job 资源和jar包打到一个 zip 包中

type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/206830.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

一、简介

二、各种调度工具特性对比

三、安装配置

四、Azkaban实战

相关推荐

HTML iframe 标签[通俗易懂]

form 表单提交后，使页面不跳转[通俗易懂]

813. Largest Sum of Averages

Django（44）drf序列化源码分析[通俗易懂]

kernel: TCP: time wait bucket table overflow的问题剖析及解决方法

Codeforces 346C Number Transformation II 构造

发表回复