关键词:
贝叶斯推断
行列式点过程
排斥性先验
泊松混合模型
摘要:
混合模型常用于进行聚类或处理密度估计问题。传统方法针对模型参数使用的独立先验往往很难将数据进行合理聚类,导致高估组分个数K,带来具有相似参数的冗余混合组分,使得模型的复杂性提高,可解释性下降。行列式点过程(Determinantal Point Processes, DPP)是一类具有良好代数结构的随机点过程,它可以提供一种具有排斥效应的概率模型。为了解决组分冗余问题,我们将DPP作为排斥性先验代替独立先验,并证明了DPP先验对一般混合模型真实组分数的估计具有相合性。 高斯混合模型是研究者常用的混合模型,而这类模型则不适合对一些罕见事件建模。针对一些大量过度分散的数据,常用泊松混合模型来模拟这种不连续的分散。然而,目前学界对泊松混合模型冗余问题的关注甚少,当斯之时,本文创新性地将具有排斥性的DPP先验引入泊松混合模型的参数中,以提高对此类数据的可解释性。在贝叶斯框架下,由于K 是未知的,在此采用可逆跳跃马尔可夫链蒙特卡罗方法,以在不同组分个数对应的参数子空间之间跳跃。 在实验中,主要比较了采用独立先验的迪利克雷过程混合(Dirichlet Process Mix-ture, DPM)模型和采用DPP先验的模型。通过模拟,发现DPP模型即使对不平衡样本也可以正确识别出混合模型组分个数,而DPM则普遍倾向于高估组分个数。在高斯混合模型下,DPP与另一排斥高斯混合(Repulsive Gaussian Mixture, RGM)模型相比仍具有优势;对泊松混合模型,在两个真实数据上实践的结果表明,当需要对潜在组分进行有现实意义的解释时,DPP是提高模型可解释性的更好先验。