关键词:
类不平衡
网贷违约预警
机器学习
SMOTE
摘要:
数据类不平衡问题,指样本中不同类别标签的数据在数量上具有差异,并非理想化的平衡分布。这一现象广泛存在于诈骗检测、医疗诊断、风险预警等分类问题中,对分类算法精度和评价指标切实性会产生不容忽视的负面影响。信贷违约预警问题是一种典型的风险预警问题,而网贷是信贷的一种创新形式。网贷作为当今“互联网+金融”背景下的一种创新产物,近年在体量上由高速上升骤然转为急剧下滑。在满足个人及小微个体的融资需求之余,监管体系不完善、平台及投资者风控能力不足以及互联网载体的特殊性,导致行业问题逐渐暴露并引发清退浪潮。借款方逾期还款行为难以遏制,平台“爆雷”和“跑路”现象时有发生,投资者直接面临资金损失。因借款方不能及时履行资金偿还义务而产生的信用风险是网贷行业面临的最为严峻风险之一。传统银行信贷业务中应对信用风险已有较为成熟的技术,例如以信用评分综合考察借款方收入状况、历史信用、社会关系等背景信息。但网贷模式具有新颖性和特殊性,平台对借款方的信息调查往往十分有限。对于平台和投资者,具有针对性地建立网贷违约预警模型,即根据借款方有限信息对其未来履约行为进行预测,以此作为出借决策的参考,是有必要的。本研究通过文献阅读归纳总结了类不平衡处理领域和信贷违约预警问题的发展历程,并规划了研究路线:将网贷违约预警问题抽象为二分类问题,应用机器学习分类模型拟合训练数据并评价测试结果。针对风险预警领域中常常存在的数据类不平衡问题,即稀有的违约样本数量往往远小于非违约样本,本文着眼于流行的少数合成过采样技术(SMOTE),即以已有样本人工合成新的少类样本,扩充样本数量以达类别平衡。同时,考虑到SMOTE方法的局限性,遵循已有改进研究的思路进行更进一步的探索,结合更灵活的均值漂移聚类方法,提出新的改进SMOTE方法。以我国规模前列的网贷平台为例,通过爬虫获取52304条借贷交易数据进行实证,以多种特征选择方法对36个变量进行筛选和降维。以改进SMOTE方法合成新的少类样本加入训练集,以决策树、随机森林等五种分类器分别拟合数据,进行对比实验。选用侧重少类的评估指标,验证改进SMOTE方法对各分类器性能的提升效果。结果表明,决策树和随机森林两种树模型的综合表现最佳,且改进方法对决策树的分类精度提升最大;所引入的均值漂移聚类方法也被证实是传统聚类方法的更优替代选择。本文所构建的网贷违约预警模型,在真实网贷平台数据集上有着良好的拟合和性能表现;对SMOTE方法的改进在实证中得到了正向反馈,模型的准确性和可靠性得到了进一步提升,这在理论和现实方面均有一定的参考价值。