关键词:
金融租赁
数据仓库
Spark
ETL
信用风险评估
摘要:
随着我国国民经济的快速发展,金融租赁行业也在飞速发展,其综合实力和竞争力逐渐增强,已成为仅次于资本主义、银行信贷的第三大融资模式。在互联网快速发展的大数据时代,金融租赁公司的融资租赁业务不断扩展,客户信息数据和业务数据与日俱增,传统的关系型数据仓库采用集中式架构,且在海量数据的存储和查询分析上存在高成本和低效率的不足。融资租赁业务的本质与银行信贷一样,金融租赁公司也会面临客户违约的信用风险。因此,如何解决海量数据的存储和查询,并对数据的价值进行分析挖掘,成为公司管理层亟需解决的难题。本文针对某金融租赁公司海量数据的存储管理、查询分析和客户信用风险管控等需求,完成了基于Spark的金融租赁数据仓库的研究与应用。融合大数据和数据仓库技术对融资租赁业务各系统的数据进行抽取存储,采用分布式Extract-Transform-Load(ETL)技术和维度建模方法在Spark分布式平台上设计并实现了金融租赁企业的数据仓库;将数据仓库和数据挖掘技术相结合,对数据仓库中的客户信用风险管理数据进行分析挖掘,构建客户信用风险评估模型,实现对客户信用状况的预测。本文所做的主要工作如下:(1)采用基于Spark的分布式ETL技术完成金融租赁公司内部数据的ETL过程,对离散分布在各业务系统、各渠道的原始数据进行抽取整合存储至HDFS和Hive表中,利用Spark实现了对海量异构数据的抽取转换和加载,相较于传统的基于Map Reduce的分布式技术,基于Spark的分布式ETL技术提高了海量数据的处理速率。(2)根据融资租赁业务的开展流程和数据仓库建模方法,选择三个代表性的分析主题,并设计了相应的维度表和事实表,完成了金融租赁数据仓库星型模型的设计。设计并实现了基于Spark的金融租赁数据仓库,该数据仓库底层也是采用的新一代的计算引擎Spark,采用基于Spark的分布式ETL方法完成数据的ETL过程,利用HDFS存储公司的海量数据和中间结果,使用Hive定义金融租赁数据仓库的表,使用Spark SQL执行查询分析操作。(3)将数据仓库和数据挖掘技术相结合,利用机器学习算法对数据仓库中的客户信用风险管理数据进行分析挖掘,针对大数据环境下高维度冗余的客户信用特征和样本不平衡两个问题,提出构建基于RF-FL-Light GBM算法的信用风险评估模型,对承租客户的信用状况进行预测。使用随机森林算法(RF)对高维特征进行重要性排序与筛选,排除易导致模型过拟合且冗余无用的特征,确定模型的特征变量;选择并改进了目前被广泛使用的高性能分类算法Light GBM,将基于Focal Loss函数改进后的二分类平衡交叉熵损失函数(FL)作为Light GBM模型的损失函数,以此改善正负样本不平衡导致模型准确度降低的情况。利用公司过去五年的历史客户数据对该模型进行实验,结果表明基于RF-FL-Light GBM算法的信用风险评估模型极大地提高了预测承租客户信用状况的精确度,并且其运行速度较快,在对融资租赁业务中待审批客户的信用状况预测上有一定的应用性。(4)基于Spark的金融租赁数据仓库的应用展示和性能实验。实现了金融租赁数据仓库分析系统,主要将数据仓库在交互式查询、可视化展现和数据挖掘三个方面的应用进行效果展示;通过数据抽取和数据转换效率对比实验,证明了基于Spark的ETL技术的高效性;通过查询分析的效率对比实验,证明了基于Spark的金融租赁数据仓库的查询性能更高和实用性更强。