关键词:
分布式大数据平台
数据仓库
元数据管理
数据血缘关系
摘要:
在大数据时代的背景下,数据急速增长,通过大数据平台以及数据仓库对数据进行组织和管理成为发展的必然趋势。传统大数据平台建设方案中,往往以业务数据为核心,而不重视元数据的管理,随着数据的增长出现数据开发、维护困难,数据质量降低等问题。针对这一现象,本文提出了以血缘关系元数据为核心的数据平台建设方案,通过血缘关系降低数据维护难度,保障数据质量,并设计了功能较为全面的开源数据平台;在此数据平台的基础上对离线数据仓库模型进行了研究,针对其在处理一体化数据文件时存在的不足,提出了离线数仓的优化模型。
此外海南自贸港的建设对于岛内航运业务各方面也提出更高要求,如何对其海量业务数据进行有效的管理和利用成为极具研究价值的问题。本文基于所提出的数据平台建设方案以及数据仓库模型,实现了面向港航轮渡数据的数据处理平台,通过大数据平台以及离线数据仓库对轮渡大数据形成有效的组织和管理,利用元数据保障数据质量。并依托大数据平台及其数据支撑,进行统计计算和数据分析,挖掘数据价值,使数据成为辅助决策者制订计划和调度资源的有效依据,用大数据技术为传统轮渡业务赋能,同时验证了所提出模型的可行性。论文主要解决了以下问题:
(1)分析了传统数据平台存在的数据管理问题,提出了以血缘关系元数据为核心的数据平台建设方案,并完成了具体的方案选型以及资源规划设计。
(2)针对传统离线数仓模型在处理特殊离线数据时存在数据处理效率较低的问题,提出了解决方案并设计了优化模型。基于该数仓模型设计了数仓建模方案以及数据处理和数据分析算法。
基于以上研究成果,设计了轮渡业务数据处理平台,实现了包括基础平台搭建、数仓建模、数据处理分析、全流程任务调度、元数据管理等功能。对所提出的数据平台建设方案和数仓模型进行了实验验证。
通过以上工作本文探索出一套以元数据为核心的开源数据平台建设方案以及离线数据仓库模型。并设计了适用于港航轮渡业务的数据处理平台和数据仓库,为大数据技术在传统港航轮渡行业的应用提供了模型基础和实施经验。在未来的研究中将进一步拓展对实时数据的处理能力,以应对更全面的应用场景。