Azkaban教程[通俗易懂]

Azkaban教程[通俗易懂]目录一、简介二、各种调度工具特性对比三、安装配置四、Azkaban实战一、简介Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系为什么需要工作流调度?一个完整的数…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

目录

一、简介

二、各种调度工具特性对比

三、安装配置

四、Azkaban实战


一、简介

Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系

为什么需要工作流调度?

Azkaban教程[通俗易懂]

一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等。各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

简单的任务调度:直接使用 linux 的 crontab 来定义。复杂的任务调度:在hadoop领域,常见的工作流调度器有Oozie, Azkaban,Cascading,Hamake等

二、各种调度工具特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考

特性

Hamake

Oozie

Azkaban

Cascading

工作流描述语言

XML

XML (xPDL based)

text file with key/value pairs

Java API

依赖机制

data-driven

explicit

explicit

explicit

是否要web容器

No

Yes

Yes

No

进度跟踪

console/log messages

web page

web page

Java API

Hadoop job调度支持

no

yes

yes

yes

运行模式

command line utility

daemon

daemon

API

Pig支持

yes

yes

yes

yes

事件通知

no

no

no

yes

需要安装

no

yes

yes

no

支持的hadoop版本

0.18+

0.20+

currently unknown

0.18+

重试支持

no

workflownode evel

yes

yes

运行任意命令

yes

yes

yes

yes

Amazon EMR支持

yes

no

currently unknown

yes

Azkaban与Oozie对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。

三、安装配置

1、解压安装 ,需要依赖mysql建库数据,尽量在有mysql、hive等机器上安装

unzip 文件 -d apps/    
azkaban-web-server-2.5.0.tar.gz
azkaban-executor-server-2.5.0.tar.gz
azkaban-sql-script-2.5.0.tar.gz

Jetbrains全家桶1年46,售后保障稳定

2、 创建SSL配置,生成 keystore 的密码及相应信息    后续配置文件用到

[root@hdp-1 ~]#  keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入 keystore 密码: 
再次输入新密码:
您的名字与姓氏是什么?
  [Unknown]: 
您的组织单位名称是什么?
  [Unknown]: 
您的组织名称是什么?
  [Unknown]: 
您所在的城市或区域名称是什么?
  [Unknown]: 
您所在的州或省份名称是什么?
  [Unknown]: 
该单位的两字母国家代码是什么
  [Unknown]:  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗?
  [否]:  y

输入<jetty>的主密码
        (如果和 keystore 密码相同,按回车): 
再次输入新密码:

3、将 keystore 拷贝到 azkaban web 服务器根目录中

[root@hdp-1 hadoop-2.7.2]$ mv keystore /root/apps/azkaban/azkaban-web-2.5.0

4、时间同步配置
先配置好服务器节点上的时区
1)如果在 /usr/share/zoneinfo/ 这个目录下不存在时区配置文件 Asia/Shanghai,就要用 tzselect 生成。

[root@hdp-8 azkaban-web-2.5.0]# tzselect
Please identify a location so that time zone rules can be set correctly.
Please select a continent or ocean.
 1) Africa
 2) Americas
 3) Antarctica
 4) Arctic Ocean
 5) Asia
 6) Atlantic Ocean
 7) Australia
 8) Europe
 9) Indian Ocean
10) Pacific Ocean
11) none - I want to specify the time zone using the Posix TZ format.
#? 5
Please select a country.
 1) Afghanistan          18) Israel            35) Palestine
 2) Armenia          19) Japan         36) Philippines
 3) Azerbaijan          20) Jordan            37) Qatar
 4) Bahrain          21) Kazakhstan        38) Russia
 5) Bangladesh          22) Korea (North)     39) Saudi Arabia
 6) Bhutan          23) Korea (South)     40) Singapore
 7) Brunei          24) Kuwait            41) Sri Lanka
 8) Cambodia          25) Kyrgyzstan        42) Syria
 9) China          26) Laos          43) Taiwan
10) Cyprus          27) Lebanon           44) Tajikistan
11) East Timor          28) Macau         45) Thailand
12) Georgia          29) Malaysia          46) Turkmenistan
13) Hong Kong          30) Mongolia          47) United Arab Emirates
14) India          31) Myanmar (Burma)       48) Uzbekistan
15) Indonesia          32) Nepal         49) Vietnam
16) Iran          33) Oman          50) Yemen
17) Iraq          34) Pakistan
#? 9
Please select one of the following time zone regions.
1) Beijing Time
2) Xinjiang Time
#? 1
The following information has been given:
    China
    Beijing Time
Therefore TZ='Asia/Shanghai' will be used.
Local time is now:    Wed Jun 14 09:16:46 CST 2017.
Universal Time is now:    Wed Jun 14 01:16:46 UTC 2017.
Is the above information OK?
1) Yes
2) No
#? 1

2)拷贝该时区文件,覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3)集群时间同步
sudo date -s ‘2017-06-14 09:23:45’
hwclock -w

5、配置文件
1 Web 服务器配置
1)进入 azkaban web 服务器安装目录 conf 目录,打开 azkaban.properties 文件

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=lucasma
jetty.keypassword=lucasma
jetty.truststore=keystore
jetty.trustpassword=lucasma

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=xxxxxxxx@163.com
mail.host=smtp.163.com 
job.failure.email=xxxxxxxx@163.com
job.success.email=xxxxxxxx@163.com

lockdown.create.projects=false

cache.directory=cache

2)web 服务器用户配置

在 azkaban web 服务器安装目录 conf 目录,按照如下配置修改 azkaban-users.xml 文件,增加管理员用户。

<azkaban-users>
    <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
    <user username="metrics" password="metrics" roles="metrics"/>
    <user username="admin" password="admin" roles="admin,metrics" />
    <role name="admin" permissions="ADMIN" />
    <role name="metrics" permissions="METRICS"/>
</azkaban-users>

2、 执行服务器配置
1)进入执行服务器安装目录 conf,打开 azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

3、mysql建库建表

mysql > CREATE DATABASE azkaban
mysql >use azkaban
mysql >source /root/apps/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql

6、启动 web 服务器
在azkaban web服务器目录下执行启动命令    bin内执行可能会造成ui界面没有css样式

 bin/azkaban-web-start.sh 

 启动执行服务器    在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

启动完成后,在浏览器(建议使用谷歌浏览器)中输入:
https://hdp-1:8443,即可访问 azkaban 服务了。在登录中输入刚才新的户用名及密码,点击 login。

四、Azkaban实战

1、单一job实战

  • 创建job描述文件
vim command.job

#command.job
type=command                                                    
command=echo hello!xin

将job文件打包成zip文件 zip command.job,通过azkaban的web管理平台创建project并上传job压缩包,创建project,执行execute

2、多job工作流flow

  • 创建有依赖关系的多个job描述,第一个job:foo.job
# foo.job
type=command
command=echo foo
  • 第二个job:bar.job依赖foo.job
# bar.job
type=command
dependencies=foo
command=echo bar

3、操作hadoop

  • vim fs.job   显示hdfs所有文件
# fs.job
type=command
command=hadoop fs -lsr /
  • 操作hive,hive脚本test.sql
use shcool;
drop table IF EXISTS teacher;
create table teacher(id int,name string,age int) row format delimited fields terminated by ',' ;
load data inpath 'file:///root/hiveinput.txt' into table teacher;
select * from aztest;

#job文件hivef.job
# hivef.job
type=command
command=hive -f 'test.sql'
  • MapReduce 任务   将 job 资源和jar包打到一个 zip 包中
type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/206830.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • Apache Struts2远程代码执行漏洞(S2-015)复现及修复方案 「建议收藏」

    Apache Struts2远程代码执行漏洞(S2-015)复现及修复方案 「建议收藏」ApacheStruts2远程代码执行漏洞(S2-015)介绍ApacheStruts2是用于开发JavaEEWeb应用程序的开源Web应用框架。ApacheStruts2.0.0至2.

  • 【Android】Mac系统Android开发环境搭建

    【Android】Mac系统Android开发环境搭建第一步检查下自己的电脑上有没有安装JDK,通过在终端中输入”java-version”,可以得到检验。第二步如果没有安装JDK,请移步Oracle官网的下载中心进行下载(需要登录Oracle账号和同意协议才能下载)【https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html】(官网下载速度是真心慢,我后面从其他网站上下载了一个JDK,搜索“JDKforMac下载”,也可以到中文社区下载

  • virsh 虚拟机迁移目录_虚拟机迁移的六个步骤

    virsh 虚拟机迁移目录_虚拟机迁移的六个步骤简介虚拟机迁移主要分为两种:静态迁移和动态迁移静态迁移是指在虚拟机关闭或暂停的情况下,将源宿主机上虚拟机的磁盘文件和配置文件拷贝到目标宿主机上。这种方式需要显式的停止虚拟机运行,对服务可用性要求高的需求不合适。动态迁移无需拷贝虚拟机配置文件和磁盘文件,但是需要迁移的主机之间有相同的目录结构放置虚拟机磁盘文件,可以通过多种方式实现,本例采用基于共享存储动态迁移,通过NFS来实现。操作环境服

  • hadoop核心模块_ERP核心模块

    hadoop核心模块_ERP核心模块转载地址:https://www.amobbs.com/thread-5531817-1-1.html 最近,利用uip搞了小东西,要想利用好uip,最好彻底搞清楚其关键函数uip_process.当网卡接收到数据之后,均需要通过该函数来处理.  下面是对uip1.0中的uip_process函数解读.//要点:网卡收到数据时,uip_process会遍历uip_udp_conn…

  • 幸福课第11讲_笔记

    幸福课第11讲_笔记11例行公事1.身体反馈假说2.没有更多的自律3.认知重建4.总结:如何成为成功人士,专家5.日记知道我们为什么要考试吗?—为了让你主动去整合我们之前学过的东西,这个课每节之间有联系的,你要去总结身体反馈假说理论:你在和你自己交流,通过伪造行为上的笑等–你的思想也和其保持一致实验:内向男144分钟聊天—(异性在男生不知觉该实验的情况下,主动谈笑风生12分钟x6个x2次…

  • java string转inputstream(substring截取字符串)

    Apachecommons是一个强大的Java辅助工具包。它提供的IOUtils可以让我们很便捷的实现InputStream转换为String。StringWriterwriter=newStringWriter();IOUtils.copy(inputStream,writer,encoding);StringtheString=writer.toString();首先把in…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号