关键词:
数据仓库
即席查询
多维数据模型
ETL任务调度
计算引擎
摘要:
在金融行业信息化背景下,商业银行面临着创新能力不足、行业标准提升、资产不良率升高、监管力度加强、客户需求多样化、行业竞争激烈等困境,信息化改革是化解商业银行此类困境最快捷高效的手段,数据分析则是信息化改革中至关重要的一步。但是商业银行目前存在数据分散、数据格式不统一、数据集成不高效、数据分析慢等问题,使得数据分析十分困难。本文将对商业银行数据仓库及其复杂即席查询进行研究,解决商业银行数据分析困难的问题,促使商业银行向数据驱动模式转型。首先,设计商业银行数据仓库多维数据模型,利用数据抽取-转换-加载(Extract-Transform-Load,ETL)技术构建银行数据仓库。分析银行现有数据信息,使用可拓分类方法选取银行高价值数据,并设计银行主题域和相应事实表与维度表,建立商业银行数据仓库多维数据模型。设计分布式数据仓库ETL,利用贪婪算法结合优化后的遗传算法和蚁群算法完成ETL任务调度,实现数据仓库中数据的高效、稳定集成其次,在商业银行数据仓库的基础上,设计数据仓库即席查询的计算引擎,实现快速复杂即席查询。采用优度评价方法对现有计算引擎进行筛选,选择Hive和Presto两个计算引擎,利用它们各自的优点进行整合,形成全新的面向商业银行的整合型计算引擎。为了提升计算速度和计算能力,将复杂即席查询语句拆分为多个简单查询。通过构造有向查询图,对有向查询图进行深度优先遍历形成有向生成树,再利用广度优先遍历对有向生成树进行遍历生成中间结果表,将中间结果表存储在虚拟内存文件系统Alluxio中,通过中间结果表得出查询结果,实现数据的复杂即席查询。最后,实现银行复杂即席查询平台系统,证实了商业银行数据仓库及其复杂即席查询研究成果的优越性。通过该系统进行ETL导入性能测试和数据即席查询速度测试,证实了通过本文研究所设计出来的银行数据仓库及其即席查询计算引擎解决了银行数据分散、数据格式不统一、数据分析慢等问题,从而解决了银行数据分析困难的问题,帮助银行实现信息化改革。