关键词:
经营分析系统
数据仓库
数据质量
ETL
数据稽核
摘要:
随着数据仓库技术的快速发展,数据仓库作为支持决策制定过程的重要手段已经被越来越多的行业和部门所接受,然而,其中的数据质量问题也越来越受到重视。在电信行业的经营分析系统中,如何保障在进入经营分析系统数据仓库之前数据的质量、排除潜在的数据问题,为后来的正确决策打下良好基础,也就成了建设经营分析系统数据仓库之前要考虑的核心问题,也是本文论述的宗旨。 本文根据作者在云南移动经营分析系统中的实习工作经历,研究了电信行业与其他行业数据特点的不同,设计了基于经营分析系统数据仓库的统一工作流的ETL流程框架,并在此流程上进行数据质量的稽查和控制。 首先,本文通过与一般行业对比,设计了一套适合电信行业经营分析系统的ETL框架,并将整个ETL流程分别部署到不同的服务器平台上,将复杂的流程明细化,使每一个ETL的中间流程都清晰明朗。 此外,本文还将详细介绍在整个ETL工作流中贯穿整个ETL始末所采取的数据质量控制方法和步骤,如何实现问题出现到问题定位再到问题解决的闭环。 最后,本文将介绍这种统一工作流的ETL流程在某电信运营商的经营分析系统项目中的实际应用。 通过对以上ETL流程应用的扩展和延伸,设计出一套应用于一般电信业经营分析系统数据仓库的基于ETL统一工作流的数据质量稽查模块,该模块可以将数据出现的问题进行分类,并进行相应的校验和阀值设定,对于数据量的波动和ETL异常等情况进行短信和电子邮件告警形式,并支持规则的动态增加。通过这些措施就可以将装入到经营分析系统数据仓库的数据的质量有了一个有效的提升和控制。