关键词:
ETL
数据仓库
分布式
hadoop
上海检察院
电子政务
摘要:
在今天电子信息高速发展的时代,电子政务系统经过快速的发展,已经在卫生,公安,检察院等各级政府机构得到广泛应用。但是这些政府部门的电子政务运用大多还处于平级和各个分散的部门之间,近年来,各高级政府部门注重民生,为了做到对直属下级有更好的信息监控和对行业政策有更好的宏观分析决策,迫切需要一套更有效的信息系统,对这些数据整合,分析,决策. 数据仓库建设是目前行业内积极进行的一种解决方法。通过对各个分散的数据库,进行数据抽取,装载,可以把电子政务近十几年的数据进行有效的整合,形成数据仓库,然后再在其上进行分析,决策,为政府高层的政策提供详细的数据分析和政策决策。 本文在以上海检察院电子政务的基本情况为背景,提出了一个基于分布式结构的数据仓库系统,详细阐述了该系统的设计方案,首先进行了可行性和系统需求分析,接着在设计部分,提出了系统的建设任务,然后确定了系统的结构、总体框架和各功能模块设计,最后阐述了实现方式。这类系统的成功应用,在设计模式和实现方式上可以为同类的相关电子政务系统建设起到一个参考和借鉴的作用。 在整个系统方案的解决中,使用了多种技术和工具,这些包括UML建模工具,数据仓库整合工具SSIS,数据仓库展现工具SSAS,分布式数据处理hadoop框架,采用的是SQL2005数据库。其中利用开源分布式框架hadoop,有效的解决了解决传统的ETL过程中数据转换缓慢这一问题,同时加强了ETL过程的管理,使其在任务分配,回溯管理等方面更加稳定,高效。