关键词:
数据仓库
ETL
分布式文件系统
MapReduce
摘要:
随着互联网技术的高速发展,各行各业都已经进入了大数据时代,人们产生和需要处理的数据量越来越大。这些数据只是信息的载体,具有多态、异构、海量、多样等特性,如何从这些海量数据中挖掘出具有潜在意义的信息,为企业的进一步决策提供参考价值,是近年来各行各业关心的话题。目前,全国土地确权登记报送系统已经上线并稳定运行,并且积累了大量的土地承包经营权确权登记颁证工作方面的数据。其中包括全国共27个省(自治区)、344个市(直辖市)和2859个县(区)的用户信息以及数据信息,每个报表信息当中各县(区)提交了不少于42项的信息数据,省市级用户需要统计不少于38项的信息数据,数据以134176条记录/月增长,以536704条记录/季度增长,一年仅报表数据可产生2146816条记录,此外还有每年各级用户提交的基础信息数据。随着数据规模的增大,以及后续功能的不断扩充,该系统的并发处理性以及大规模数据的分析能力将急剧下降,现有系统无法满足系统的拓展性要求。基于上述问题的出发点,本文对海量数据处理相关的技术进行了研究,在对数据仓库技术、分布式存储与计算等关键技术的研究基础上,结合全国土地确权登记报送系统的业务需求,对现有系统进行了海量数据处理的架构优化设计。论文的主要工作和研究成果如下:一、根据农业部的业务需求,设计了一种基于数据分析主题的数据仓库,通过数据仓库的维度模型,结合数据仓库的ETL技术,实现了全国土地确权登记报送系统的业务数据库到数据仓库的抽取、清洗、转换以及转载的过程,为农业部门进行海量数据分析提供了第一手的决策支持方案,减少了使用旧数据带来的决策无效和决策干扰的风险。二、利用Hadoop的分布式文件系统进行了分布式集群环境的搭建,并且利用Sqoop技术实现了数据仓库与分布式文件系统之间的数据传输,通过廉价的硬件设备分布式存储文件,解决了现有系统随着功能不断扩充而出现的海量数据存储问题,并为后续分布式计算模型奠定基础。三、本文结合对Hadoop的分布式计算模型MapReduce的研究以及全国土地确权登记报送系统的数据分析需求和软硬件实力,设计了一种有效的基于分布式的计算模型对系统的并行处理能力进行优化,对MapReduce的mapper和reducer过程进行了详细的自定义设计,在各分布式服务器上进行关联匹配,然后将各个服务器的数据计算结果合成得到最终结果,这种设计有利于减轻了网络频繁的通信负担,相比原有系统具有并行计算、异步处理的优势,大大提高的系统处理数据的速度。