关键词:
大维样本协方差矩阵
广义spiked模型
收敛速度
离群特征值数量
摘要:
在二十世纪五十年代到如今的研究发展中,随机矩阵理论蓬勃发展,大维随机矩阵理论已经渗透到各个领域的方方面面。比如多元统计中的主成分分析以及因子分析、金融工程中的投资组合优化、无线通讯中复杂数据的处理、数论中分析素数的分布甚至在医学医学数据的分析。总之,需要处理大维数据的,包括信号处理、神经网络、图像处理等众多领域。由此可见,进行高维数据分析十分重要。
大维样本协方差矩阵是高维数据分析中的重要概念。当数据集包含大量变量时,协方差矩阵描述了这些变量之间的线性关系,提供了关于数据结构和变量之间关联性的关键信息。在具体应用领域中,大维样本协方差矩阵的计算和分析对于理解数据的结构、特征和关联性至关重要。可以说,研究协方差矩阵是进行深入数据分析的重要前提,有利于更好地理解数据集中的信息。
离群模型和因子模型、主成分分析模型等有着紧密的联系。由于该模型在多元统计分析中具有举足轻重的作用,在大维情形下估计离群特征值的数目成为一个重要且具有挑战性的问题,尤其是当一部分离群特征值相等时。本文主要关注当广义离群模型的一部分离群特征值相等时所有离群特征值的个数估计问题。在观测矩阵的维数和样本量都趋近于无穷的大维框架下,基于大维样本协方差矩阵极值特征值的极限性质,本文提出了广义spiked模型中离群特征值的数目的估计量,并从理论上证明了随着维数和样本量趋于无穷时该估计量的一致性。本文研究的广义spiked模型由Bai和Yao(2012)提出,非spiked特征值可以呈任意分布。该模型去除了Johnstone(2001)提出的标准spiked模型的非离群特征值全为1的假设,以及消除了总体协方差阵的对角阵约束,并允许样本来自除高斯分布之外的其他分布,如伽马分布、指数分布等。这种模型的优点是可以更好地拟合实际数据,并且可以更好地描述数据的内在结构和模式。
本文进行了广泛的模拟实验验证了所提估计量的有效性。在一些离群特征值相等的情形下进行了上千次重复试验,为验证模型的广义性质,实验分为如下四种情形进行:高斯分布下的对角矩阵非单位阵、高斯分布下的对角块独立、非高斯分布下的对角非单位阵、非高斯分布下的对角块独立。在这四种情况下进行的模拟实验,都能得到优良的实验结果。甚至在离群特征值接近、甚至相等或具有弱离群性质时,也能以较高的准确率获取离群特征值的数量,只不过收敛的速率变得较慢。