关键词:
列存储
数据仓库
元数据
缓冲区
HashB+
摘要:
近年来,随着ERP、电子商务的迅速发展,越来越多的企业开始重视数据仓库的建设,以从大量数据中获得有用的信息,为企业带来经济效益。相对于数据库管理系统,数据仓库系统具有面向主题、集成的、不可更新的特点,是一种支持对大量数据进行分析的决策性系统。在数据仓库上进行数据分析时,常常要求进行ad-hoc查询操作,这就会在短时间内读取大量新数据。因此,与数据库管理系统相比较,数据仓库系统更偏重于读操作的性能。列存储是一种保证高效读性能的新型存储技术。在列存储中,数据以列的形式存储在磁盘块中,在查询时,只需读取与查询相关的列数据,从而减少磁盘I/O,提高了读操作的效率,所以列存储已成为目前数据仓库的主流存储架构。 元数据和缓冲区是数据仓库的重要组成部分,元数据和缓冲区的设计和实现关系到数据仓库的运行效率和稳定性,元数据保存了数据字典中各项基本数据,是数据仓库数据的数据,而缓冲区是为了减少磁盘I/O而产生的内存管理结构,因此元数据和缓冲区的设计好坏直接关系到数据仓库的性能。 对于数据仓库,其数据较少更新。但是对于元数据来说,系统需要频繁的对其进行更新、删除操作,由于列存储的局限性,无法很好的支持数据更新,这也给系统实现带来了很大的麻烦。本文作者的研究目标是如何设计出数据仓库中元数据的逻辑结构以及存储结构,并根据其存储结构设计出与其相对应的缓冲区。 本文的研究内容主要包括: 1.根据数据仓库的定义,分析了数据存储底层管理和实现机制,并对其实现机制,设计出了适合数据仓库底层存储的物理存储结构: 2.由于元数据具有广泛性,因此本文只采用了一种元数据即——数据字典作为研究重点,并对数据字典进行了详细的设计,以符合数据仓库上层模块的需求;3.针对数据仓库列存储更新效率上的缺点以及数据仓库对数据字典的高效定值查找、更新的需求,本文设计出了适合数据仓库数据字典的存储结构——Hash B+树索引存储结构,该索引结构可很好地满足了数据仓库的定值查找和数据更新;4.对于数据字典的Hash+树底层存储结构,本文为适应此结构,设计出了此结构在共享池的管理方式;5.通过实验,验证了Hash+树索引的效率问题,很好地满足了列存储数据仓库元数据管理的实际需求。 总之,本文对数据仓库元数据以及缓冲区进行研究和设计,并同时提出Hash+树索引结构。此外,通过实验验证,所提出的元数据与缓冲区设计满足了数据仓库的实际需求,提高了元数据中数据字典的定值查找效率。