关键词:
数据仓库
数据中心
ETL
元数据
CWM
摘要:
随着数据仓库应用的不断推广,构建数据仓库的各种工具也不断涌现出来。为了支持整个数据仓库环境中各部分之间的无缝集成,这些工具需要彼此协作,使数据流能在各个工作环节中畅通流动。同时尽量保证信息的完整性和正确性,为此,数据仓库中的元数据必须有统一良好的定义。
ETL在数据仓库和商业智能中都是重要的组成部分,而且ETL的开发在整个数据仓库项目开发周期中也是比较耗时的部分。在数据仓库开发过程中,开发人员通常更关注业务元数据和技术元数据,却忽视了ETL元数据的管理,导致ETL开发周期的延长。目前,元数据管理结构有两种:一种是集中式的元数据管理结构,即整个系统只有一个元数据仓储,所有工具和数据仓库直接从这个中心元数据仓储中获取元数据信息,这种结构只适合于中小规模的企业。对于大型企业中数据环境较为复杂的应用场景,集中管理几乎不可能。另一种是分散式的元数据管理结构,这种结构建立了若干个分布的、相对自治的元数据仓储,分别处理某个单一领域的元数据,而全局元数据则由元数据管理系统来管理。这种分散式结构虽然分散管理元数据,但在共享元数据部分由于要从不同元数据库中得到元数据,并且不同的元数据库有可能使用不同的元数据定义形式,所以仍然要解决元数据异构的问题。而且这些分布的、自治的元数据库间的集成不可避免地要用到元数据交换协议,因此也延长了开发周期。
公共仓库元模型(CWM)是一种基于UML设计的,用于建立公共仓库的元模型,并且是面向对象的模型。本文对CWM进行了深入研究,运用该模型对ETL元数据建模,将对象模型映射到关系模型,并建立相应的元数据库,最后将设计的元数据库应用到浦东数据中心数据管理子系统。通过对ETL元数据的有效管理,可以更加直观地将ETL数据源、转换规则以及映射关系反映给ETL工程师,便于ETL的开发和ETL元数据的维护。
文章首先介绍了元数据、ETL和ETL元数据等相关概念,深入研究了CWM模型的整体架构、设计原则、各组成包的功能以及包之间的关系,重点分析了CWM中与ETL相关的包。然后,利用CWM中的相关包设计了面向对象的ETL元数据模型,并将其转化成关系模型即ETL元数据的ER图以及关系型的ETL元数据库。最后,将设计应用到浦东数据中心项目。