关键词:
数据仓库
Hadoop集群
hive
MapReduce
数据可视化
摘要:
科学技术的发展带来了人们生活办公方式的转变,当今时代所倡导的人工智能,大数据等技术的发展都以数据作为基石。数据的价值在生活的方方面面都日益明显,而对于一个企业来说数据的价值更是在一个企业当中扮演着至关重要的角色,企业在日常经营与生产中积累了海量的数据,数据进入了DT时代,如何合理地处理和利用这些数据成了所有企业所关心的重要问题。大数据技术在这种背景下孕育而生,并在潮流之中稳步向前发展,在大数据的浪潮之中,Hadoop技术脱颖而出,并得到了学术界和工业界的广泛认可,Hadoop集群之上的开源数据仓库应用Hive具有模式自由、扩展性高和容错性高等特点,能够很好的为企业级数据仓库的建设提供服务,因此,越来越多的企业开始考虑如何很好地利用Hive数据仓库带来的优势,创建自己企业的数据仓库,使自身的信息化建设迈上一个新的台阶。数据仓库是一个面向主题,经过加工和集成,相对稳定并且随时间变化的数据集合,然而传统数据仓库扩展性、容错性等较低,处理大规模数据效果非常差劲,使数据仓库完全脱离了时代的潮流,发挥不出应有的功能。在数据仓库中,查询是其所有操作的重要组成部分,数据仓库中的数据会长期存在,方便用户直接进行查询操作。大数据背景下,新的数据仓库建设方案迫在眉睫。针对上面所提出的问题本文提出了一种大数据时代下新的数据仓库建设思路,更好的服务于当今社会背景下的企业的信息化建设。企业数据仓库为企业提供数据支持,方便企业更好地进行数据管理和数据挖掘工作,是企业信息化建设的核心所在。文章以数据仓库建设的背景和意义作为文章的开始,而后深刻地分析了现在国内外对数据仓库技术的研究成果,在对现有技术的研究之上,本文采用自动化的数据处理技术和新颖的数据分层思想,并且对目标系统进行了需求分析和设计得知数据处理、数据建模、数据仓库管理和可视化是我们目标系统的四个重要组成部分。因此本文的主要研究内容有:1、数据处理使用Hadoop平台,Hadoop为数据仓库提供高效且廉价的数据处理平台,利用Hive sql方便了数据处理流程,并且自主设计使用SHELL脚本实现了ETL自动化过程,通过实验分析得出最佳线程数,使用Yarn来进行资源管理提高数据仓库的稳定性和扩展性,并且利用Map Reduce并行计算的优势,能够很好地支持企业大规模数据的处理。2、数据建模数据建模的核心是逐层解耦。越到底层越接近业务发生的记录,越到上层,越接近业务目标。数据仓库的建设使用维度建模法,在建模的同时设计数据分层,使数据变得更加可靠,数据结构更加明确,方便我们对数据进行血缘追踪,为数据开发提供极大的便利。3、可视化部分利用spring MVC+spring+mybatis+Echars作为整个系统的框架,向企业展示他们所关心的关键购销数据。4、测试部分针对各个功能模块设计了相应的测试用例。根据我们所设计的测试用例对系统的性能、功能以及安全性进行测试,测试结果在我们的预料之中,系统运转正常。