关键词:
大数据
广告投放
Hive
DSP
DMP
数据仓库
数据处理分析
摘要:
在现在的互联网背景下,随着私人计算机和手机的覆盖率增加,技术增长进而导致的网络的价格不断的降低,人们几乎在每一天都要上网进行各种各样的活动。而其中本人所在的实习公司会收到很多的来自人们的访问,因此会出现大量的访问数据,如何高效的使用以及储存这些量级极大的数据,进而应用于各种有利于公司的业务场景,成为了一个急需解决的问题。广告投放数据分析系统,即DMP系统(Data-ManagementPlatform,数据管理平台)的子系统,是目前大型和中型互联网公司中非常流行的一个系统,此系统是 RTB(RealTimeBidding,实时竞价)-DSP(DemandSidePlatform,需求方平台)体系中非常重要的一环。此系统需要完成的任务相当多,它不仅要处理来自于公司APP的大量数据,还要处理来自DSP系统的数据,除此之外,在数据处理完成后,此系统还要对这些数据进行数据可视化以及最后的导出工作,来支持数据分析部门,BI(Business Intelligence)部门以及算法部门的工作。在整个广告投放数据分析系统的开发中,本人主要参与了需求分析、设计、开发、测试以及维护的工作,本人的工作内容如下:(1)参与并完成了整个系统的需求分析,提出了我所想到的所有需要注意的环节以及问题,尽量满足来自于各个部门的内部需求。(2)参与并完成了整个系统的概要设计,最后确定了系统的功能模块划分。(3)与两人合作完成了系统各个模块的详细设计与实现、包括数据仓库数据获取子模块的详细设计与实现、实时流日志分析子模块的详细设计与实现、DSP日志获取子模块的详细设计与实现、数据库数据获取子模块的详细设计与实现、DSP日志分析子模块的详细设计与实现、数据仓库数据清洗子模块的详细设计与实现、cube制作子模块的详细设计与实现以及相对简单的数据展示模块和数据导出模块的详细设计与实现。(4)参与并完成了整个系统的测试工作。(5)负责整个系统的每日维护和更新,包括新ETL的编写,新主题数据的增加,每日自动化调度的实现等等。在实现广告投放数据分析系统的过程中,使用的技术大多数为Hadoop生态圈的相关框架,即Mapreduce,Hive,Spark,Kylin等,使用的开发语言为Java,Shell以及Hive Sql。本项目目前已经上线,并已经经过多次的更新与迭代,是一个完善的系统,对组内所有部门的工作都起到了非常大的支持作用。