关键词:
大数据
数据仓库
ETL
Feed流
摘要:
在信息智能化的时代,利用大数据并借助数据分析模型与分析算法,为用户提供个性化服务来增加用户对产品的依赖性已经成为了一种主流趋势。百度拥有庞大的用户量,通过用户行为日志分析用户兴趣爱好,为用户提供最适合的个性化服务已经成为百度服务宗旨。百度Feed流基于百亿用户数据,以人群属性、搜索意向、行为数据、兴趣爱好来了解用户行为,精确锁定用户需求。Feed流是百度2017年的重点业务,根据信息流广告在整个广告市场的增长势头,百度Feed流广告将成为新的增长点,Feed流业务给百度带来了巨大的经济效益。同时,伴随着Feed流成为百度的重点业务,为了进一步完善Feed流业务以及更好的了解用户需求,关于Feed流的各项分析业务也逐渐成型。针对Feed流用户行为日志数据管理与分析的重要需求,本文基于Hadoop平台进行Feed用户行为数据仓库的分析、设计、建模与实现,最终产出合理、规范的Feed用户行为数据仓库,该数据仓库主要提供了明细层基础数据和数据主题层数据。本论文首先分析了Feed的产品形态和建立数据仓库所需要的日志源,以及所建数据仓库的相关数据维度。其次,在数据仓库的架构层面和数据模型层面进行了详细设计,在数据仓库的架构层面设计时紧扣业务特点,按其设计适合的数据仓库整体架构和ETL实现流程。接着,完整实现了一个高效可靠的数据仓库,主要包括:Feed用户行为数据仓库建立;ETL数据分析与处理,自动产出明细层基础数据,同时也实现了主题层的构建与数据报表展现。最后,针对数据仓库的数据质量以及数据仓库的功能与性能进行测试验证实验,从多种维度对所实现的数据仓库管理的数据进行测试,以保证数据仓库提供的数据正确可用。本课题紧密结合经典数据仓库建设过程和实际业务特点,建立了统一、规范、可用的Feed用户行为数据仓库。目前该数据仓库已经通过测试正常上线使用,主要为反作弊团队提供了稳定可靠的关于Feed用户行为的基础数据,通过我们提供的数据,反作弊团队利用数据分析等技术过滤掉用户日志数据中的作弊记录,因此在广告流量计算等业务方面,才能够统计出真实的用户行为日志量。该数据仓库给公司带来了巨大的贡献,体现了该数据仓库的重要实用价值。