是什么

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了图形框架,您可使用该框架来设计和运行用于变换和清理、加载数据的作业。
ETL:抽取,转换,倾斜。是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

ETL过程

  1. 数据的抽取(Extract)
    确定数据来源:属于那种数据库;确定数据类型:是不是结构化数据;确定数据规模,是否存在手动输入的状况;

– 全量抽取

一次抽取完源数据库所有数据。
– 增量抽取

抽取一部分的数据,或者说是抽取每天新增的数据。

  1. 数据的清洗转换(Cleaning、Transform)
  • 数据清洗
    为什么需要清洗:要保证自己处理的数据是有效的、有意义的,那就避免出现有不完整的数据、错误的数据、重复的数据。常见的情况是原表没有主键,而目标表有主键导致数据无法抽取过去,还有就是目标表的某一字段不能为空,但是源表却为空了等等这些都会导致数据抽取失败。

  • 数据转换

  数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。

  (1)不一致数据转换:比如张三在A系统的名称是zs,而在B系统的名称是sz,那么在导入目标数据库前需要给一个同一的命名;

  (2)数据粒度的转换:比如在最终统计的过程中需要分析某一个行动轨迹,那么就需要知道张三的具体位置,如果只想知道张三在不早某一区域,那就不需要知道张三的具体位置

  (3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。