大家好,又见面了,我是你们的朋友全栈君。
[原创]ETL开发流程随笔
ETL开发
数据仓库ODS到DWD的ETL工作流程记录
ETL工作目标
目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题
ETL工作目的主要有:
1.源系统ERP各城市库的整合
2.每个城市不同规则的统一、数据转换
3.数据缺失值的处理(填充的规则怎么定)
4.异常值的处理
5.内容中不该出现或者存在的字符处理(寻找我们应用的数据的前端校验设计是否良好)
6.去重处理
还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据
ETL工作流程
- 准备工作-ETL设计-脚本开发-脚本自测
准备工作
1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题 ETL设计-数据格式需求.doc2.准备好 数据仓库dwd层建表DDL --> 销售主题域DW层定版-20191119.xlsx 其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句 数据仓库数据字典0802.xlsx 为源系统的数据字典3.审核确定事实维度表的加载策略,变更内容、变更记录4.清洗规则说明.doc5.脚本规范说明6.脚本模版说明
ETL开发上线包
主要任务介绍上线包文件组成
ETL开发模版统一和规范
- 统一出事和周期开发脚本模版
- 统一数据处理变更脚本模版
- 统一应用开发脚本模版
- 统一Sql 文件脚本模版
- 统一ETL逻辑设计文档模版
- 规范类型转换
- 规范脚本测试和自测
- 规范自动调度系统配置
ETL设计
- 主要任务:
完成ETL过程设计
(数据整合、转换、清洗、数据勘查的设计)- 输出:
数据缺失异常值校验.xlsx
ETL映射表.xlsx
ETL实施方案.xlsx - 此表中包含
ods层到dwd 或者中间表的 映射
ETL工作者归属
每个表的清洗、整合逻辑记录在此表
- 输出:
ETL开发
- 主要任务:
根据ETL设计的逻辑开发脚本- 输入:
数据仓库数据字典0802.xlsx
ETL映射表.xlsx
ETL实施方案.xlsx
销售主题域DW层定版-20191119.xlsx - 输出:
初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob
- 输入:
ETL测试
自动调度系统配置
待完善
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/133057.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...