关键词:
大数据
数据仓库
用户行为
海量数据
摘要:
随着互联网产业的飞速发展,各种App如雨后春笋般出现在人们的日常生活中,通过客户端埋点技术企业可以采集到大量的用户行为日志,通过分析这些日志可以发掘用户的特点并调整推送策略。但在移动互联网时代来临后,企业面临着数据爆炸的问题。这时,采用传统技术对用户行为日志进行分析的效率已经不能满足企业的要求,因此需要采用大数据技术,对日志进行高效处理。本文结合企业的实际生产需求,以建设用户行为数据仓库系统为目标,提出了以Hadoop平台为基础,使用Hive、Spark等大数据技术,采用维度建模思想构建企业级数据仓库的解决方案。本文首先分析了App本身的产品形态以及数据特点,并与业务方沟通完成了详细的需求分析,针对实际需求,采用维度建模法,对数据仓库进行分层架构,设计出基础数据层(ODS)、中间数据层(CDM)以及数据集市层(ADS)三个层次,并对各层内数据表结构以及维度数据进行了详细设计,在最重要的地理位置维度数据上,通过采用Geo Hash算法,大大加快了定位速度。之后,基于设计好的数据模型并紧扣业务特点,设计开发了一套完整的ETL流程,该流程可以实现数据的分析和处理,自动产出数据仓库各层数据,实现了用户行为数据仓库的核心功能。此外,还通过提供监控与报警功能提高了数据仓库的稳定性和可靠性,通过拆分引擎,提高数据仓库效率,最终建立了统一、规范、高可用的用户行为数据仓库系统。目前,本系统已经在企业中成功上线使用,为公司提供了准确、可靠的基础数据,通过对基础数据的分析,决策层可以不断调整产品布局,开发人员可以不断进行App版本迭代,使公司的业务快速发展,用户体验不断提升。