关键词:
数据仓库
算法
实视图选择
实视图维护
摘要:
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源和满足决策支持的需要而产生的,它并不是所谓的“大型数据库”,而是为支持企业决策而特别设计和建立的数据集合。数据仓库技术是基于信息系统业务发展的需要,从数据库系统技术发展而来,最终逐步独立出来的一系列新的应用技术。其中的实视图技术是提高数据仓库性能的一项重要技术,它通过对常用的查询结果进行预先存储,从而大大加快了查询响应的时间。
实视图包括两项重要的技术:实视图选择和实视图维护。实视图选择技术是利用选择算法从候选的视图集合中选择出合适的视图将之实体化。当数据源发生更新时,为了与底层数据源保持一致,系统就要调用维护算法进行实视图的维护。因此,本文的研究内容主要围绕实视图选择和实视图维护来展开。
本文的研究内容主要包括以下几个方面:
1.本课题的应用研究是依托“农产品数量安全智能分析与预警关键技术支撑系统及示范”项目来展开的,首先要构建一个农业生产数据仓库。第一步是数据库及数据仓库的框架设计,包括数据表结构的设计,维及度量的划分,中间表结构的设计等;第二步是数据清洗,从数据源中挑选出本课题需要的数据,并将这些数据以一种统一的格式有效地组织起来,存储到中间表里;第三步是ETL过程,运用自己开发的ETL工具,将存储在中间表中的数据装载进数据库,然后通过SQL Server提供的SSAS工具建立数据仓库。
2.对传统的实视图选择算法进行了分析和总结,传统选择算法复杂度高、查询响应速度慢。为了克服上述缺点,本文提出了一种基于遗传算法的改进型实视图选择算法来解决查询代价约束下的实视图选择问题。该算法通过在遗传过程中动态改变交叉概率和变异概率,既保持了群体的多样性,又保证了遗传算法的收敛性,有效地提高了遗传算法的优化能力,从而避免了“进化停滞”问题的产生。同时该算法增加了对遗传过程中无效解的处理,避免无效循环产生的“进化停滞”问题,大大提高了实视图选择的效率。
3.对传统的实视图维护算法进行了分析和总结,传统维护算法存在更新异常问题,为了克服上述缺点,本文提出了一种基于ECA算法的改进型实视图维护算法,实验证明该算法很好地解决了更新异常问题,保证了数据的一致性。
4.将理论研究成果应用到农业生产数据仓库中,从而证明改进后的实视图选择算法和实视图维护算法的实用价值。