SNP命名
SNP介绍: SNP (Single Nucleotide Polymorphism 单核苷酸多态)具有分布密度高、基因分型方法具有进行大规模处理的潜力等特点,而成为继微卫星标记后引人注目的一类遗传多态标记。1980年 Botstein 等就已采用RFLP (限制性酶切片段长度多态)构建DNA的物理图谱。自从1995年以来在基因组测序的过程中,SNP被研究者重新认识,其应用越来越广泛,从复杂遗传病和肿瘤易感基因的定位,到群体和进化遗传学研究,SNP已成为一种重要的研究工具。NCBI的dbSNP数据库是启动最早,收集数据最多的公共数据库,尽管它无论在用户界面设计,还是在数据内容方面都存在相当多的局限和问题,但它仍然是在学术界最有影响的SNP数据资源之一。该数据库的数据一般都有两个身份标识(ID):ss编号和rs编号,前者是为所有研究者提交的SNP都生成的编号,称为NCBI分析编号(NCBI Assay ID),而后者是在对所有已有数据比较后,为独特SNP生成的编号,称为参考SNP编号(reference SNP ID)。理论上一个rs SNP可能对应多个不同的ss SNP, rsSNP应是唯一的。但事实上不同rs编号的SNP也不一定代表不同的SNP,这是NCBI目前的数据处理流程存在的问题之一。NCBI,UCSC和Sanger中心的基因组标释都对rs编号的SNP进行了基因组定位,因为SNP数据库的数据采集不如GenBank那样标准严格,也没有提供相应的软件帮助研究者制作标准的提交数据,因此也常有数据不完整,可靠性有局限等问题。所幸有其它一些数据库提供了更为全面的相关信息,如TSC (The SNP Consortium: http://snp./)提供的SNP等位基因频率数据,UCSC中可以获得定位SNP的旁侧序列。关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。具体表现在以下几种形式: 一、突变信息之间加上位置信息: 主要有三种方式:比如说突变信息之间加上cDNA的位置,如C188T;突变信息之间加上DNA的位置,如A2546G;突变氨基酸信息之间加上氨基酸位置,如Glu145Lys。 二、按发现顺序或频率顺序拟定的惯用名称 也有几种形式,如CYP2D6*10,CYP2C9*3等。还有一些前面加个m,表示突变,如cyp2c19m2等,还有一些也可以在文献中见到,如CYP2E1的c1>c2的突变等等。总之形式是多样的,有时确实让人感到头晕。你可以到下面的网址看看,也许有启发,这是CYP系列SNP的一个命名网站。http://www.cypalleles./ 三、NCBI的rs号 ncbi里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。 四、需要注意的地方 首先,由于基因信息的不断完善和补充,很多原来的snp位置信息都在发生变化,向C188T这样的snp位置信息,你只需把它当成一个名字而已,千万不要真对着188这个位置去找snp。查到位置疑议,也不必惊慌,很可能就是基因信息的更迭造成的。 再次、ncbi的同一个snp可能拥有2个rs号,这也没什么,关键是你要找对了。 知道一个SNP的序列号,比如rs6983561,NCBI上写的A/C,那么A和C哪个才是野生型,也就是主要allele, 而哪个又是变异型,也就是次要allele呐?怎么判断呐?
因为有些时候虽然在某个人群中A比较多,因为它在别的人群中却可以比较少,但它可能却不是野生型,好象在NCBI上是可以查到的,但具体应该怎么做呐? 谢谢高手指教啊 就这个rs6983561,在NCBI上是A/C 但在另个网站http://snp500cancer.nci./snp.cfm上,却写的是G/T,如果按照三藏互补配对,应该T/G不是吗
|
|