KETTLE教程-初探

KETTLE教程-初探KETTLE概念、学习指南

大家好,又见面了,我是你们的朋友全栈君。

概念阐述

  1. ETL(Extract-Transform-Load)工具,即数据抽取、转换、装载。国内称为水壶
  2. 工作流程:将各种来源数据汇入到水壶中,进行数据处理,以特定格式输出到文件、数据库等装载容器
  3. 来自Borderfree的副总裁Warren Chang对Pentaho-KETTLE的评价:在业务中传递数据是一门艺术,而Pentaho将艺术转变成巨大的商业价值

优点

  • 直观的拖放设计,想拖什么就拖什么,然后组合在一起
  • 丰富的访问数据来源的组件,支持关系型数据库、非关系型数据库、大数据仓库、企业应用(如日志平台)等等
    • 关系型数据库-Relational database management system(RDBMS):Oracle、IBM-DB2、MySQL、Miscrosoft SQL Server
    • 非关系型数据库和对象存储:MongoDB、Cassandra,HBase、Hitachi Content Platform
    • 分析型数据库:Vertica、Greenplum、Teradata、SAP HANA、Amazon Redshift、Google Big Query、Microsoft Azure SQL Data、Warehouse (DW)
    • 业务应用(猜测是获取大量数据的接口,如日志系统):Salesforce、Google Analytics
    • Spark and Hadoop: Cloudera、Hortonworks、Amazon EMR、MapR、Microsoft Azure HDInsights
    • 非结构化数据:xml、json、excel、csv、txt、avro、parquet、orc、音频、视频等非结构化文件
  • 通过数据获取组件,快速获取、分析和装载大量数据,产出分析图表、直观分析结果或分析报告
  • 强大的组件组合能力,将一个个转换组合起来,完成功能,包括通知和警报
  • 完整的企业级调度系统,支持协调工作流程,拥有用于测试、优化作业执行的调试器
  • 丰富的数据分析、数据质量控制组件,去除不符合业务规则、冗余的数据、验证数据的标准性(如电子邮箱)
    • 如计数、数学函数、字符串处理、过滤、排序、正则验证等
  • 强大的管理功能
    • 共享存储库(转换和作业),开发人员、数据分析师、数据管理员进行协作
    • 版本管理,可以回退到某个版本的作业
    • 用户角色权限管理或集成第三方安全认证系统

流程介绍

有两个技术名词,Transformation(转换)和Job(作业)
转换可以包含多个转换、多个组件
作业可以包含多个转换、多个作业、多个组件

环境准备

  • JDK-1.8
  • Data Integration-6.1(最新为8.2Stable,Data Integration文件夹为历史版本,Pentaho 8.x文件夹为8以上版本)下载

工具结构

工具架构描述

版本更替

  • 待梳理
版本 新增特性
KETTLE-8.2 https://help.pentaho.com/Documentation/8.2/Whats_New
KETTLE-8.1 https://help.pentaho.com/Documentation/8.1/Whats_New
KETTLE-8.0 https://help.pentaho.com/Documentation/8.0/Whats_New
KETTLE-7.1 https://help.pentaho.com/Documentation/7.1/Whats_New
KETTLE-7.0 https://help.pentaho.com/Documentation/7.0/0C0
KETTLE-6.1 https://help.pentaho.com/Documentation/6.1/0C0
KETTLE-6.0 https://help.pentaho.com/Documentation/6.0/0C0
KETTLE-5.4 https://help.pentaho.com/Documentation/5.4/0T0/040
KETTLE-5.3 https://help.pentaho.com/Documentation/5.3/0T0/040
KETTLE-5.2 https://help.pentaho.com/Documentation/5.2/0T0/040/005
KETTLE-5.1 https://help.pentaho.com/Documentation/5.1/0T0/040/000

学习资料

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/142575.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • html网页动态日历代码_春节倒计时源码

    html网页动态日历代码_春节倒计时源码点击文章下面超链接,即可免费下载,源码以及文件素材,无需积分,关注后即可下载记得关注,只有关注后才可以下载!!!效果图:钟表以及时间文字显示会自动根据打开网页的时间,显示时间;无需自己修改,弹幕和文字皆可以修改;背景是渐变色彩,可根据自己的需要在源码中修改即可,除了主要功能是HTML意外,还有CSS、JS等源码,就算没有编程工具,电脑没有任何编程配置,只需要打开文件,鼠标双击运行index即可,会自动跳到系统默认浏览器内,就算毫无编程基础、英语小白页可以娱乐;本源码意在学习与娱乐,未经授权!!禁止商用

    2022年10月19日
  • 学生学籍管理系统_学生学籍管理系统的开发

    学生学籍管理系统_学生学籍管理系统的开发二需求分析2.1系统功能要求设计此系统实现如下系统功能:我们小组所设计的学生学籍管理数据库系统主要分为两大模块层面,一是:学生登录层面,二是:教师登录层面。不同层面根据不同用户的需求所实现的功能不同,这样能够更人性化地贴合个体的使用,最大程度地提升系统的使用及运行效率。所以系统设有两种不同的登录选择,用户根据实际情况自行登录,修改、查询、管理信息。学生层面:(1)

    2022年10月16日
  • 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法…

    台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法…有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows,请勿关闭计算机”的提示,要过很久才能进入系统,有的用户甚至几个小时也无法进入,下面就教大家这个问题的解决方法。第一种方法:我们首先在左下角的“开始”菜单或者左下角的windows标志处,找到“控制面板”然后找到”windowsupdate”把这微软默认的更新程序给关闭掉,可解决!(经测试,此方法能解决大多数这种问题)如果解决…

  • Vue.js 快速入门

    Vue.js 快速入门

  • Java的文件读写操作

    Java的文件读写操作file(内存)—-输入流—->【程序】—-输出流—->file(内存)当我们读写文本文件的时候,采用Reader是非常方便的,比如FileReader,InputStreamReader和BufferedReader。其中最重要的类是InputStreamReader,它是字节转换为字符的桥梁。你可以在构造器重指定编码的方式,如果不指定的话将采用底层操作系统的默认编

  • 什么是IP地址、IP协议?[通俗易懂]

    什么是IP地址?IP地址协议互联网协议地址(英语:InternetProtocolAddress,又译为网际协议地址),缩写为IP地址(英语:IPAddress),是分配给用户上网使用的网际协议(英语:InternetProtocol,IP)的设备的数字标签。网络互联网络互连设备,如以太网、分组交换网等,它们相互之间不能互通,不能互通的主要原因是因为它们所传送数据的基本单元(技术…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号