关键词:
混合比例估计
多类别分类
标签噪声学习
锚点
不可约假设
统计一致性
摘要:
近年来,人工智能蓬勃发展,伴随着计算硬件算力的提升,深度学习已成为了人工智能算法的新范式.然而深度学习依赖大量精确标注的数据,在现实的多类别分类场景中,受限于标注成本和隐私数据保护等因素,大量精准标注的数据往往难以获得.近些年,移动众包和网络爬虫这类经济廉价的数据收集方法被广泛采用,但他们不可避免地引入了错误标注,即标签噪声.鉴于深度神经网络强大的数据拟合能力,标签噪声的存在将造成算法的过拟合,严重制约了深度学习方法的泛化能力.针对标签噪声问题,现有研究大多显式或隐式地依赖锚点(明确属于某一类别的样本),然而在现实场景中锚点难以获取,这使得现有解决方案不再适用.为解决这一问题,本文创造性地将多类别标签噪声学习问题转化为混合比例估计(mixture proportion estimation,MPE)问题,构建了一种不依赖锚点的满足统计一致性的学习算法.本文的主要贡献包括:(1)对现有的仅适用于二组成物MPE场景的R-MPE(regrouping-MPE)方法进行推广,提出了多组成物场景下不依赖不可约假设的MPE方法MR-MPE(multi-component oriented R-MPE);(2)理论上证明了多类别分类场景下标签噪声学习算法锚点假设和MPE问题不可约假设的等价性,并基于所提出的MR-MPE方法构建了不依赖锚点的满足统计一致性的算法.本文在合成噪声数据集和真实噪声数据集上分别与现有算法进行了对比实验,结果显示本文所提算法在多个数据集上均展现出了最优的性能;同时,在移除锚点的情况下,本文对算法的鲁棒性进行了测试,验证了所提算法不依赖锚点的特性.