关键词:
正类-无标签学习
标注确定性增强
后验概率
贝叶斯分类器
两步法
摘要:
正类-无标签学习(Positive and Unlabeled Learning, PUL)是在负例样本未知的情况下,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,从而限制了所训练分类器在新数据上的泛化能力。为解决这一问题,本研究提出了一种以无标签样本标注确定性增强为导向的正类-无标签学习(Labeling Certainty Enhancement-Oriented PUL, LCE-PUL)算法。首先,LCE-PUL算法通过验证集后验概率均值和正类样本集中心点的相似程度筛选出可靠的正类样本,通过多轮迭代逐步精细化标注过程,提升对无标签样本初步类别判断的准确性,以提高标注的确定性。这些可靠的正类样本与原始正类样本集合并,形成新的正类样本集,之后从无标签样本集中将其剔除。接着,遍历新的无标签样本集,利用每个样本与若干近邻点的相似程度再次筛选可靠正类样本,以更准确地推断无标签样本的潜在标签,减少误标注的可能性,提升标注的确定性。最终,更新正类样本集,未被选中的无标签样本被视为负类样本集。在代表性的数据集上对LCE-PUL算法的可行性、合理性和有效性进行了验证,实验结果表明,随着迭代次数的增加,LCE-PUL算法的训练呈现收敛的特性,且当正类样本比例为0.4、0.35和0.3的情况下,LCE-PUL算法构建的分类器测试精度相较于基于特定成本函数的偏置SVM算法(Biased-SVM)、基于Dijkstra的PUL标签传播算法(Label Propagation for Positive and Unlabeled Learning, LP-PUL)和基于标签传播的正类-无标记学习算法(Positive and Unlabeled Learning by Label Propagation, PU-LP)等5种代表性对比算法中提升幅度最大的情况,分别提升了5.8、8.8和7.6个百分点,从而证实了LCE-PUL是一种有效的处理正类-无标签学习问题的机器学习算法。