关键词:
大数据
CDH
数据仓库
爬虫
电子商务
摘要:
近年来大数据已成为了互联网行业最热门的研究课题,电子商务平台在日常运作中,需要通过大数据分析帮助做全局性和系统性的决策。由于缺乏足够的业务数据以及专业的数据分析能力,中小型电商在运营策略定制以及调整上有明显的滞后性,使得中小型电商标准化以及智能化的发展受到了严重限制。在这样的背景下,本文研究了为中小电商平台提供丰富数据爬取、大数据主题分析、策略定制指导以及用户管理的一站式通用大数据系统。首先,本文以中小型电商的数据需求为出发点,实现了爬虫技术的应用创新,集成多种爬虫技术手段弥补中小电商数据缺陷以及进行前期数据预处理,构建爬虫工具实现了规则模板多任务并行、循环爬取以及定时爬取。创新地使用了第三方IP池突破单节点采集上限,使用XPath以及正则表达式过滤杂质信息,为数据分析源源不断地提供稳定可靠的基础数据。其次,本文对大数据集群框架进行了改进并且基于改进型框架搭建了完整的计算集群,改善了旧架构无法承担高强度数据分析任务的缺陷以及实现了业务解耦。使用新型的数据仓库分层理论并且进行了适应性修改,基于此对商品系列主题进行了数据分析,深入挖掘了商品数据的潜在价值。最后,本文基于Spring框架搭建了完整的可视化Web服务系统,依据业务需求对商品系列主题进行分析,并使用Echarts商业级数据图表,包括区域地图、堆叠折线图以及柱状图等丰富的形式对分析结果进行展示,创新地使用数据中台思想,将可视化Web端独立部署于云服务器中,完成与计算集群节点的故障隔离,极大提高了系统的可扩展性和稳定性。通过对系统集群各模块进行了全面的功能以及非功能性测试,验证了数据框架改进设计以及流程优化方案的先进性,能够满足中小型电商不断新增的生产数据需求以及策略指导需求,具有很高的应用价值。