关键词:
特征选取
缺失值处理
非均衡数据
Stacking模型
摘要:
过去的几年里P2P网贷平台呈现野蛮式的扩张,但最近的“跑路”潮、倒闭潮频现,引发各界对我国P2P网贷市场安全性和稳定性的担忧。P2P网贷平台面临诸多风险,其中信用风险相较传统金融行业更加突出。借款人信用风险(即违约风险)是指借款人不能履行合同,无法按期偿还本金和利息。借款人一旦违约,将会给出借人和平台的经济利益造成直接损失,而大规模违约更会严重影响平台经营,动摇投资人信心,制约行业发展。与此同时,由于P2P网贷发展历史较短,缺乏商业银行所掌握的丰富客户信息和经营管理经验,且借款用户多而分散,难以依靠内部专家的经验判断进行信用风险评估,平台的信用风险评估和预警面临较大挑战。因此,建立更为精准的模型进行借款人违约风险的评估和预警,对保障投资人的利益、平台的安全运营和行业的健康发展具有重要的现实意义。目前国内外针对P2P平台借款人违约预测的研究已经结合了很多机器学习的算法,但是当前的研究在预测前期的特征选取、缺失数据处理上比较粗糙,并且在最后的模型选择上大多数是使用了单一模型进行违约预测,使得预测结果可能不够准确完备,所以本文将针对特征选取、缺失值处理以及预测模型三个方面进行优化。本文首先采用随机森林重要性排序进行特征选取,又因为本文变量较多且后续会涉及到线性模型,因此,后续又进行了相关性分析以及Lasso回归,以此来避免过拟合问题。在缺失值处理上,区别于以往的传统方法填充,这里主要使用机器学习算法进行填充,包括Knn填充、多重插补、缺失森林填充等方法,通过多方面评价指标的对比,选取还原度最高的缺失值处理方法进行填充。在进行最后的违约预测之前,发现存在非均衡数据问题,因此,在预测之前首先进行了非均衡数据的处理,处理方法包括欠采样、过采样、人工数据合成法三种,通过误差指标对比最终选择了效果最好的Smote算法对数据进行了处理。在最后的违约算法里,本文首先从多个角度对比了经典单一算法的预测准确率,然后在单一算法的基础上采用了Stacking融合算法,发现使用了融合模型后有效提高了预测准确度。除此之外,本文还在最后的融合模型里对比了传统方法填充数据和机器学习算法填充数据的预测效果,结果显示,使用了机器学习算法填充的数据更加“保真”,最后的预测效果也更好。