关键词:
种质资源
堆栈式稀疏自编码器
聚类分析
数据仓库
Spark
Hive
摘要:
作为生态系统与生物多样性的关键组成元素,作物种质资源是维护粮食安全与生态安全,维系农业可持续发展的关键性资源。中国是全球生物多样性最为丰富的大国之一,作物种质资源种类多且数量大。得益于中国政府的鼎力支持和农业工作者数十年来的艰苦奋斗,种质资源的信息化工作进展顺利,农作物种质资源数据库初步建成。而随着种质资源信息化工作的进一步拓展,种质资源数据量进一步增大,基于传统的关系型数据库搭建的系统并不能充分满足育种专家的需求,隐藏在种质资源数据内部的价值不能充分挖掘出来。在大数据的时代背景之下,如何利用新技术,解决种质资源信息的存储和共享,实现种质资源大数据的深度挖掘,是目前农业领域科研工作者亟待解决的难题。本文通过Hadoop生态圈技术,尤其是Spark和Hive的运用,基于目前已投入使用的农作物种质资源数据库之上,建立新型的种质资源数据仓库,是种质资源数据进一步利用与价值挖掘的有益尝试。本文的主要研究工作如下:(1)针对种质资源数据仓库搭建过程之中,大量种质材料需要进行品质分类的问题,提出利用基于堆栈式稀疏自编码神经网络的K-means聚类算法来实现,并利用商空间理论,参照现有的种质资源品质数据对聚类后的数据进行标注,从而实现大规模种质资源数据的品质自动归类。由于种质资源样本属性众多,通过特征约简的运用,能有效地降低数据维度提取出关键数据特征,提高聚类的准确性,减少聚类的时间。将堆栈式稀疏自编码神经网络学习得到的混合特征,作为K-means聚类的初始聚类中心,可以很好地解决K-means聚类算法对初始点的选择比较敏感的问题。与目前常用的主成分分析支持下的聚类算法相比,该算法处理高维数据的能力更强,聚类效果更好。(2)针对大数据时代背景之下,随着种质资源信息化工作的不断推进,种质资源数据量不断增加,而数据利用率低的问题,提出利用Spark框架和Hive搭建一种新型种质资源数据仓库系统。本文详细阐述了系统中关键组成模块的功能,阐明各模块所涉及的关键性技术,并详细介绍了如何利用Spark和Hive来实现所想建设的种质资源数据仓库系统。与传统的基于关系型数据库搭建的系统相比,该数据仓库系统处理海量数据的能力更强,更易于扩展,并具备交互式查询功能与一定数据挖掘功能,能为育种工作者提供科学的指导,提高其工作效率。