SNP命名

whitecl 2011-05-19

展开全文

SNP命名
SNP介绍:
SNP (Single Nucleotide Polymorphism 单核苷酸多态)具有分布密度高、基因分型方法具有进行大规模处理的潜力等特点，而成为继微卫星标记后引人注目的一类遗传多态标记。1980年 Botstein 等就已采用RFLP (限制性酶切片段长度多态)构建DNA的物理图谱。自从1995年以来在基因组测序的过程中，SNP被研究者重新认识，其应用越来越广泛，从复杂遗传病和肿瘤易感基因的定位，到群体和进化遗传学研究，SNP已成为一种重要的研究工具。NCBI的dbSNP数据库是启动最早，收集数据最多的公共数据库，尽管它无论在用户界面设计，还是在数据内容方面都存在相当多的局限和问题，但它仍然是在学术界最有影响的SNP数据资源之一。该数据库的数据一般都有两个身份标识(ID)：ss编号和rs编号，前者是为所有研究者提交的SNP都生成的编号，称为NCBI分析编号(NCBI Assay ID)，而后者是在对所有已有数据比较后，为独特SNP生成的编号，称为参考SNP编号(reference SNP ID)。理论上一个rs SNP可能对应多个不同的ss SNP, rsSNP应是唯一的。但事实上不同rs编号的SNP也不一定代表不同的SNP，这是NCBI目前的数据处理流程存在的问题之一。NCBI，UCSC和Sanger中心的基因组标释都对rs编号的SNP进行了基因组定位，因为SNP数据库的数据采集不如GenBank那样标准严格，也没有提供相应的软件帮助研究者制作标准的提交数据，因此也常有数据不完整，可靠性有局限等问题。所幸有其它一些数据库提供了更为全面的相关信息，如TSC (The SNP Consortium: http://snp./)提供的SNP等位基因频率数据，UCSC中可以获得定位SNP的旁侧序列。关于snp位点的命名其实并不统一，大家在文献中一般用的都是习惯或者说惯用名称。具体表现在以下几种形式：
一、突变信息之间加上位置信息：
主要有三种方式：比如说突变信息之间加上cDNA的位置，如C188T；突变信息之间加上DNA的位置，如A2546G；突变氨基酸信息之间加上氨基酸位置，如Glu145Lys。
二、按发现顺序或频率顺序拟定的惯用名称
也有几种形式，如CYP2D6*10,CYP2C9*3等。还有一些前面加个m，表示突变，如cyp2c19m2等，还有一些也可以在文献中见到，如CYP2E1的c1>c2的突变等等。总之形式是多样的，有时确实让人感到头晕。你可以到下面的网址看看，也许有启发，这是CYP系列SNP的一个命名网站。http://www.cypalleles./
三、NCBI的rs号
ncbi里对所有提交的snp进行分类考证之后，都会给出一个rs号，也可称作参考snp，并给出snp的具体信息，包括前后序列，位置信息，分布频率等，应该说用这个rs号是比较容易确定搞明白的。
四、需要注意的地方
首先，由于基因信息的不断完善和补充，很多原来的snp位置信息都在发生变化，向C188T这样的snp位置信息，你只需把它当成一个名字而已，千万不要真对着188这个位置去找snp。查到位置疑议，也不必惊慌，很可能就是基因信息的更迭造成的。
再次、ncbi的同一个snp可能拥有2个rs号，这也没什么，关键是你要找对了。

知道一个SNP的序列号，比如rs6983561，NCBI上写的A/C，那么A和C哪个才是野生型，也就是主要allele, 而哪个又是变异型，也就是次要allele呐？怎么判断呐？
因为有些时候虽然在某个人群中A比较多，因为它在别的人群中却可以比较少，但它可能却不是野生型，好象在NCBI上是可以查到的，但具体应该怎么做呐？
谢谢高手指教啊
就这个rs6983561，在NCBI上是A/C
但在另个网站http://snp500cancer.nci./snp.cfm上，却写的是G/T，如果按照三藏互补配对，应该T/G不是吗

知道了SNP号的话，既然你都看到了A/C,那么为什么不多往下下看一眼呢，RefSNP Alleles: A/C 表示的是A与C 的变化，在它的下一行会出现Ancestral Allele: C ，这就是表示野生的是C,意思就是C 突变成A；再有你说的在500cancer上看到的，也是对的，这是他的互补序列，但是要从5’端向3’端表示呀！

但如果C是wild那么应该是A与C相比，可是在这篇文献中，《Cancer Epidemiol Biomarkers Prev》杂志中的Multiple independent genetic variants in the 8q24 region are associated with prostate cancer risk》却正好相反，是以A与reference，C与A相比，这怎么解释呐
谁与谁相比没关系的，只要他文章上说明谁是野生型的就可以，不用深究到底和谁比较！还有就是野生型，杂合突变，纯和突变，这些只是说明该基因在人群中的基因频率分布而已。

选择不同的alle作为reference是为了比较结果用的，只要可以说明问题就可以了

（以上引自http://bbs./bbs/forum.php?mod=viewthread&tid=300468&highlight=SNP）