基因组关联分析是一种在人类或动植物全基因组中寻找变异序列的方法,全英文名为Genome-wide association study,缩写名为GWAS
2005年,Science杂志报道了第一篇GWAS研究——年龄相关性黄斑变性,之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年底,单是在人类上就有1212篇GWAS文章被发表,涉及210个性状。GWAS主要基于共变法的思想,该方法是人类进行科学思维和实践的最重要工具之一;统计学研究也表明,GWAS很长时期内都将处于蓬勃发展期。
全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。
动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。
GWAS的具体研究方法与传统的候选基因法相类似。最早主要是用单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度。
目前GWAS研究主要采用两阶段或多阶段方法。在第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。虽然 GWAS结果在很大程度上增加了对复杂性状分子遗传机制的理解,但也显现出很大的局限性。首先,通过统计分析遗传因素和复杂性状的关系,确定与特定复杂性状关联的功能性位点存在一定难度。通过GWAS发现的许多SNP位点并不影响蛋白质中的氨基酸,甚至许多SNP位点不在蛋白编码开放阅读框(open reading frame,ORF)内,这为解释 SNP位点与复杂性状之间的关系造成了困难。
但是,由于复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。因此,在找寻相关变异时应同时注意到编码区和调控区位点变异的重要性。其次,等位基因结构 (数量、类型、作用大小和易感性变异频率)在不同性状中可能具有不同的特征。
在GWAS研究后要确定一个基因型-表型因果关系还有许多困难,由于连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。同样,在测序时同样存在连锁不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWAS研究一般地获得大量样本的基因组数据还是非常困难的。
但是,随着基因组研究和基因芯片技术的不断发展和完善,必将迎来GWAS的广泛应用。