关键词:
数据仓库
数据抽取
数据清洗
数据转换
数据加载
摘要:
数据仓库能有效的把大量分散和异构的数据集成到统一的环境中以提供决策型数据访问,提高企业的数据资源利用能力,在现代企业的信息化建设中起着越来越重要的作用。而一个高质量的ETL过程则是建设数据仓库的关键环节。利用ETL工具可以对异构数据源中的业务数据抽取和转换,并将其装载到数据仓库中,为基于数据仓库的决策分析应用提供高质量的数据。
ETL工具从本质上而言是一种数据转换工具。传统ETL工具一般是对加载到内存的数据逐条进行转换或者质量检测,转换效率比较低。此外,传统ETL大都面向特定的行业领域,对该领域内的具体事务支持较好,当转移到其他领域时,面对新的业务逻辑可能很难处理。
针对传统ETL工具的缺陷,本文展开了深入的分析和探讨,着重研究了ETL中的几个关键问题,给出了一个通用ETL工具的设计方案和系统架构。它支持多种异构数据平台。在转换环节,提供了大量细粒度的转换组件,通过组件组合的方式完成复杂的事务,以支持多个领域的业务需求。该工具从各异构的数据源获取元数据并加载到专用的ETL服务器中,在ETL服务器上设计各字段的前后映射,并将整个过程(即抽取规则的元数据)保存到XML中。在运行阶段,通过解析保存在XML中的ETL过程来生成对应的SQL脚本,交由ETL服务器上的数据库完成全部转换工作,最后载入到目标数据库中。
最后本文实现了这样一个通用的ETL工具,并应用到具体的业务场景中,开发人员利用此工具灵活、便捷的设计ETL任务,系统运行平稳,很好的完成了数据仓库的ETL过程。