大家好,又见面了,我是你们的朋友全栈君。
概念阐述
- ETL(Extract-Transform-Load)工具,即数据抽取、转换、装载。国内称为水壶
- 工作流程:将各种来源数据汇入到水壶中,进行数据处理,以特定格式输出到文件、数据库等装载容器
- 来自Borderfree的副总裁Warren Chang对Pentaho-KETTLE的评价:在业务中传递数据是一门艺术,而Pentaho将艺术转变成巨大的商业价值
优点
- 直观的拖放设计,想拖什么就拖什么,然后组合在一起
- 丰富的访问数据来源的组件,支持关系型数据库、非关系型数据库、大数据仓库、企业应用(如日志平台)等等
- 关系型数据库-Relational database management system(RDBMS):Oracle、IBM-DB2、MySQL、Miscrosoft SQL Server
- 非关系型数据库和对象存储:MongoDB、Cassandra,HBase、Hitachi Content Platform
- 分析型数据库:Vertica、Greenplum、Teradata、SAP HANA、Amazon Redshift、Google Big Query、Microsoft Azure SQL Data、Warehouse (DW)
- 业务应用(猜测是获取大量数据的接口,如日志系统):Salesforce、Google Analytics
- Spark and Hadoop: Cloudera、Hortonworks、Amazon EMR、MapR、Microsoft Azure HDInsights
- 非结构化数据:xml、json、excel、csv、txt、avro、parquet、orc、音频、视频等非结构化文件
- 通过数据获取组件,快速获取、分析和装载大量数据,产出分析图表、直观分析结果或分析报告
- 强大的组件组合能力,将一个个转换组合起来,完成功能,包括通知和警报
- 完整的企业级调度系统,支持协调工作流程,拥有用于测试、优化作业执行的调试器
- 丰富的数据分析、数据质量控制组件,去除不符合业务规则、冗余的数据、验证数据的标准性(如电子邮箱)
- 如计数、数学函数、字符串处理、过滤、排序、正则验证等
- 强大的管理功能
- 共享存储库(转换和作业),开发人员、数据分析师、数据管理员进行协作
- 版本管理,可以回退到某个版本的作业
- 用户角色权限管理或集成第三方安全认证系统
流程介绍
有两个技术名词,Transformation(转换)和Job(作业)
转换可以包含多个转换、多个组件
作业可以包含多个转换、多个作业、多个组件
环境准备
- JDK-1.8
- Data Integration-6.1(最新为8.2Stable,Data Integration文件夹为历史版本,Pentaho 8.x文件夹为8以上版本)下载
工具结构
版本更替
- 待梳理
版本 | 新增特性 |
---|---|
KETTLE-8.2 | https://help.pentaho.com/Documentation/8.2/Whats_New |
KETTLE-8.1 | https://help.pentaho.com/Documentation/8.1/Whats_New |
KETTLE-8.0 | https://help.pentaho.com/Documentation/8.0/Whats_New |
KETTLE-7.1 | https://help.pentaho.com/Documentation/7.1/Whats_New |
KETTLE-7.0 | https://help.pentaho.com/Documentation/7.0/0C0 |
KETTLE-6.1 | https://help.pentaho.com/Documentation/6.1/0C0 |
KETTLE-6.0 | https://help.pentaho.com/Documentation/6.0/0C0 |
KETTLE-5.4 | https://help.pentaho.com/Documentation/5.4/0T0/040 |
KETTLE-5.3 | https://help.pentaho.com/Documentation/5.3/0T0/040 |
KETTLE-5.2 | https://help.pentaho.com/Documentation/5.2/0T0/040/005 |
KETTLE-5.1 | https://help.pentaho.com/Documentation/5.1/0T0/040/000 |
学习资料
- KETTLE介绍
- KETTLE官网
- KETTLE文档
- KETTLE-8.2-转换组件使用说明
- KETTLE-8.2-作业组件使用说明
- KETTLE-ISSUE
- KETTLE-源码,官方例子在\assemblies\samples\src\main\resources
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/142575.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...