关键词:
全基因组关联分析
基因-基因交互作用
连锁不平衡
不连锁
摘要:
GWAS(全基因组关联分析)是在人类全部基因组的范围内寻找与复杂疾病相关联的碱基对的变异,这种碱基对的变异被称为单核苷酸多态性(SNP)。2005年,黄斑变性与年龄相关性的研究拉开了GWAS研究的序幕。尽管大量的与疾病相关联的SNP被发现,但是传统的全基因组关联分析仍有不足之处。传统的全基因组关联分析发现的与疾病相关联的SNP只能解释很少一部分遗传变异。其原因有1.传统的GWAS中一般假设常见疾病由常见的变异引起,然而不常见的变异虽然可能单独的遗传影响较小,但多个不常见变异也可能引起疾病;2.传统的GWAS—般忽略多位点SNPs的交互作用影响;3、检验基因—基因,基因—环境交互作用的统计量功效比较低。因此有必要在传统GWAS研究的基础上进行基因—基因交互作用与疾病的关联分析。目前,国内外关于多位点基因—基因交互作用的研究己取得一些研究成果,提出了很多检验多位点基因—基因交互作用的方法。在待检验的位点较少时,常采用检验交互作用的统计方法可以分为三类:基于疾病渗透率的方法、基于Logistic回归模型的方法、基于连锁不平衡的方法。在待检验的位点较多时,常采用非参数统计的方法,如MDR(多因子降维法),随机森林法,支持向量机法等。本文主要针对不连锁的两位点的基因—基因交互作用与疾病关联分析进行研究。首先对部分已有的检验两位点基因—基因交互作用的统计量进行介绍。其次在Zhao et al提出的基于连锁不平衡的统计量TZHao的基础上改进,利用δ方法构造出新的统计量TNewLD’并加入同样基于连锁不平衡的统计量硫做模拟试验进行比较。模拟实验结果表明:三个检验统计量在两个风险基因对疾病均无作用,只有一个风险基因对疾病有作用以及两个风险基因对疾病均有作用的三种零假设的情况下,均近似服从自由度为1的中心卡方分布且可以较好的控制犯第一类错误的概率。在两个风险基因对疾病均无作用,以及基因—基因交互作用变化时,改进的统计量TNewLD在三种常见遗传模型Epistasis模型,Multiplicative模型,Threshold模型下功效均比其他两种高0.02左右。