SNP全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2:1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的胞嘧啶常被甲基化,而后自发地脱氨成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×10^6 个 。因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。
SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,通过对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。这种变异可能是转换(C T,在其互补链上则为G A),也可能是颠换(C A,G T,C G,A T)。转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。Wang等的研究也证明了这一点。转换的几率之所以高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。
从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。
先形成的SNP在人群中常有更高的频率,后形成的SNP所占的比率较低。各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的。
SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究:
1、 SNP数量多,分布广泛。据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。
2、 SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。 由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。
3、 SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。
4、 易于基因分型。SNPs 的二态性,也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容:(1)鉴别基因型所采用的化学反应,常用的技术手段包括:DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后,需要应用生物技术系统检测反应结果。
多重SNaPshot SNP由美国Life Technologies公司开发。以多重引物延伸为基础可以针对1-12个SNP位点进行分型,SNaPshot又称为小测序技术,与一代测序技术并称为检测SNP位点的金标准。甚至灵敏度高于标准测序,可检测待测样品中的极小量变异(如体突变)
SNP分型主要技术原理在一个含有测序酶,四种荧光标记的ddNTP,紧挨多态位点5’端的不同长度延伸引物和PCR产物模板的反应体系中,引物延伸一个碱基即终止,经ABI 3730 测序仪跑胶后,根据峰的颜色可知掺入的碱基种类,从而确定该样本的基因型,根据峰移动的胶位置确定该延伸产物对应的SNP位点。
(1)适合全基因组SNP关联研究获得的初步阳性位点验证研究
(2)适合全基因组测序得到的大量初筛突变位点大样品验证研究
(3)通过选择与性状相关的候选基因(如hapmap计划的数据、5’UTR区、3’UTR区、外显子、外显子与内含子的剪切区、DNA百科全书中的序列),用该候选基因的已知或重测序分析得到标签SNP,通过大样本统计分析验证该基因是否与该性状相关
(4)候选生物通路或者候选染色体区域的基因SNP分型等
(1)提好的样本DNA或者相关组织样本DNA细胞(≥106)、组织(≥300mg)、血液(≥1ml)、基因组DNA(体积≥20μl,浓度≥50 ng/μl)
(2)需要检测的SNP位点信息(也可以只是具体基因区域,位点由我们挑选或推荐)
(1)原始数据文件(.fsa)
(2)峰图文件(.pdf)
(3) 扩增和反应体系所涉及的引物序列
(4)分型结果(.excel)
(5) 120个测序相互验证质量评估报告
MassARRAY® 分子量阵列技术是Sequenom公司推出的世界上领先的基因分析工具,该技术是基于Sequenom质谱仪来实现的。首先通过PCR扩增出含有SNP位点的一段DNA序列,用SAP酶纯化,单碱基延伸引物延伸,探针在SNP位点处仅延伸一个碱基。用基质辅助激光解析电离飞行时间质谱(MALDI-TOF MS) 检测延伸产物与未延伸引物间的分子量差异,确定该点处碱基。Sequenom Mass Array飞行时间质谱生物芯片系统是为基因组学研究提供兼顾灵敏度和特异性服务的中高通量技术平台,是目前唯一采用质谱法进行直接检测的设备。Sequenom MassArray系统反应体系为非杂交依赖性,不需要各种标记物,实验设计灵活,更可实现高达25-30重反应,是目前市场上拥有最高性价比的检测系统。
◇高通量:一张芯片可对384个样本进行多重检测;每个体系最多可实现30重反应;
◇高性价比:每个SNP检测成本仅需2-5元(依据SNP个数及样本量而定);
◇高灵敏度:分析所需样本量少(10ng),准确性>95%;检出率>90%;
◇高灵活度:一张芯片上样本数量和位置可随意选择、样本和位点检测匹配可随意选择。
(1)适合全基因组SNP关联研究获得的初步阳性位点及大量初筛突变位点大样品验证;
(2)群体遗传学研究(生物进化、遗传分析)
(3)疾病相关基因研究(复杂疾病的易感性基因分析与基因定位)
(4)环境因子易感基因的检出与病原体基因分析
(5)药物基因组学(药物开发与个体用药)
(6)个体识别与法医鉴定
(7)生物医药研究(系统发育分析与病理分子遗传机理阐明)候选生物通路或者候选染色体区域的基因SNP分型等;
(1)Hardy-Weinberg平衡检验;
(2) 等位基因型频数分析;
(3) 基因型频数分布分析;
(4)Major allele纯合型与其他基因型频数比较分析;
(5)Major allele纯合及杂合型与其他基因型频数比较分析;
(6) 单体型分析。
(7)以及向客户提供Mass ARRAY的原始数据(Excel格式)。
(8)我们还协助客户进行论文发表等工作