关键词:
门禁数据
数据仓库
数据分析
大数据技术
可视化
摘要:
随着信息化、智能化时代的到来,基于3D人脸识别的门禁系统作为高校数字安防的核心应用,已经在高校中得到了广泛使用。这种门禁系统能够降低来自校园外部的威胁,从而保障校园里面人员、财产的安全。但是,现存的门禁系统,在对其海量数据的储存、管理及分析挖掘方面存在很大的不足。如何合理地处理和利用这些数据,成为了学校关心的重要问题。在此背景下,大数据技术应运而生,并在学术界以及工业界得到广泛认可和应用。其中,Hadoop技术以其良好的生态圈,并具有扩展性高、稳定性强、容错性高等优势,成为大数据处理领域的主流平台。基于Hadoop集群上开源数据仓库能够辅助学校管理。因此,越来越多高校构建属于自己的数据仓库系统,从而推动学校信息化建设迈向新台阶。数据仓库拥有面向主题,能够加工、处理、集成随时间变化的数据集。但是,传统的数据仓库只能处理偏结构化的数据,无法处理其他类型的数据。而校园中的数据不仅有结构化数据,还有非结构化数据以及半结构化数据。对其他非结构化的数据,数据仓库并不能做到很好的处理;也不能很好的解决“数据孤岛”。为了解决这些问题,打破“数据孤岛”,发挥数据的潜在价值。结合校园数据的相关业务特点以及业务需求,对3D人脸识别的通行门禁数据的储存、管理、分析统计挖掘,设计实现一个数据分析平台具有较大的现实意义。本文的主要工作如下:1.分析基于大数据技术的门禁数据分析平台的业务需求,具体包括数据备份,使用数据湖进行数据储存、管理,数据脱敏,在数据湖中设计实现数据仓库,使用知识图谱进行数据可视化的展示,自动化任务流程,数据分析挖掘统计,后台管理系统等相关模块。2.将数据湖等大数据技术应用到校园数据的储存、管理、分析。同时在数据湖的基础上,使用Kimball维度建模理论结合数据分层以及业务需求,进行数据仓库的设计,采用Apache Hive完成数据仓库的构建,使数据变得更加可靠,数据结构更加的明确,方便对数据进行血缘追踪,为数据开发提供便利。配合Azkaban任务调度工具,设计实现每日新增加数据的自动化处理。3.设计出一个基于校园门禁通行数据的人员行为异常的检测方法,采用Prefix Span算法对门禁用户及其每日进出地点、时间构建的路径序列以及时间序列进行模式挖掘,生成正常序列库。通过使用相对编辑距离以及相对支持度等方式对前日行为序列进行定量刻画,完成异常行为检测。通过实验分析,在选用的数据集上,采用本文设计的LSTM预测模型,效果要好于ARIMA等传统模型,并将此模型运用到实际的生产环境中进行使用。同时根据设定的规则,统计用户外出未归情况。4.对数据湖中相关结构化数据使用Neo4j进行知识图谱的构建,通过使用点和边的方式,更加直观的展示节点以及节点之间的关系。5.设计和实现后台管理系统,对平台进行管理。将SSM+Spring Boot+VUE等技术作为系统的框架,对平台用户、用户权限进行管理。最后对整个平台进行测试,验证平台的可用性。