关键词:
跨域少样本分类
模型剪枝
正则化训练
参数融合
摘要:
针对深度学习任务中数据异构、领域差异、数据缺失等问题,业界提出跨域少样本分类方法,并取得了十分优异的性能。然而,在实际任务部署过程中,现有的跨域少样本分类方法依然面临着以下问题:首先,跨域少样本分类任务源域与目标域之间存在较大的差异,所以预训练模型中会存在许多相对于下游少样本任务无关的冗余参数,而现有的方法大都忽略了对这些冗余元素进行处理。另外,模型在下游任务上进行训练时只接触到有限的目标域数据,会导致模型忘记一些关键的源域参数,最终在任务中产生过拟合现象,所以对模型进行微调时需要对源域参数进行选择。最后,除了样本数量受到限制以外,在实际场景中模型还会遇到资源受限的情况,所以需要开发出轻量化跨域少样本分类模型。为了解决上述问题,本文基于模型剪枝机制,开展了以下研究工作:
(1)为了限制预训练模型中的冗余元素,本文首先在下游任务微调过程中嵌入“稠密-稀疏-稠密”的正则化微调机制。在预训练模型基础上,首先对预训练模型利用下游少样本数据进行训练来学习模型对于目标域任务的重要性,接着利用剪枝方法移除幅值较低的参数并将得到的稀疏模型进行再次微调使模型达到稳定状态,最后方法将剪枝掉的参数重新取回并以较小的学习率对所有参数进行更新。为了保证最后得到的模型可以保留必要的源域参数,本方法在损失函数中加入一个L2-SP正则化损失指导模型训练。经过上述步骤后,本方法对于目标域得到一个性能优异的稠密模型。该方法可以以即插即用的形式部署于不同的基于微调的跨域少样本学习方案中,实验结果表明本方法可以充分提升基础方法的迁移能力。
(2)目标域样本不仅呈现出少样本带标签的形式,还有大量数据以无标注的形式存在,大部分跨域少样本分类方法都忽略了对无标签数据进行特征处理。为了解决上述问题,提出基于迭代剪枝的自监督跨域少样本分类方法。在对源域数据进行特征提取后,方法在预训练模型基础上利用对比学习结合L2-SP正则化机制对无标签目标域样本进行特征提取;为了抑制冗余元素对于下游任务的影响,在训练过程中对模型进行迭代剪枝操作,即对剪枝后的模型进行重新取回并以一定频率重复上述剪枝与取回操作,这样可以使得“误裁”的参数得到恢复。最后,将得到的模型部署于下游少样本任务并进行微调。本方法将对比学习与迭代剪枝机制进行融合,在充分提取无标签目标样本特征的同时有效限制了预训练冗余元素对于下游任务的性能的影响。实验结果表明本方法可以取得优异的性能。
(3)L2-SP正则化机制可以用于缓解模型在微调过程中忘记关键源域参数的问题,但是该方法只是在模型整体层次使得最后模型靠近于预训练模型,所以最后模型依然会忽略对一些重要预训练参数的学习。为了解决上述问题,从参数层次对源域与目标域模型进行融合,每个预训练模型参数与目标域模型参数通过一个系数矩阵的元素进行线性融合;在对目标域模型进行更新时,本方法同时对系数矩阵进行更新,所以整个融合过程是自适应的。同时,为了进一步对源域参数进行选择,方法对系数矩阵进行剪枝操作,所以最后模型可以对两个领域的参数进行充分选择与融合。本方法实现了对源域与目标域参数的自适应融合,同时可以部署于不同形式的跨域少样本分类任务中,实验表明了本方法的优越性。
(4)为了解决跨域少样本分类模型在资源受限设备上的部署问题,受彩票假设等剪枝方法的启发,将Edge-popup方法应用于跨域少样本分类场景。在预训练模型的基础上,本方法利用少样本目标域数据结合Edge-popup来对模型进行剪枝得到一个对于下游任务性能优异的子模型,该子模型直接继承预训练模型的参数,在下游任务中不需要微调就可以取得十分优异的性能。本方法将彩票假设思想在跨域少样本分类任务进行验证,直接实现了对于预训练模型的结构搜索,大量实验结果表明本方法是十分有效的。
以上方法可以以即插即用的方式部署于不同的基础模型中,在不同数据集上的结果表明本文方法可以有效提升模型的迁移性能。