dbSNP的简单使用

昵称44541692 2017-06-20

展开全文

dbSNP：database of SNP（Wikipedia：The Single Nucleotide Polymorphism Database）单核苷酸多态性数据库dbSNP（http://www3.ncbi.nlm./SNP/)是由NCBI与人类基因组研究所（National Human Genome Research Institute）合作建立的，它是关于单碱基替换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列。

dbSNP的数据结构

完整的数据以多种格式存于ftp站点：ftp://ftp.ncbi./snp/ 数据库结构：自版本125起，dbSNP的设计改为“中心和辐条”模型，其中dbSNP_main表格为车轮的中心，其存储着数据库的主要表格，而车轮的辐条是具体生物体的数据库，其包含着具体生物体的最新数据。dbSNP使用标准的SQL DDL(Data Definition Language)为表格和索引创建模式表（schema tables）、视图。FTP数据库目录(ftp://ftp.ncbi./snp/database/)包含模式（schema）、数据、创建表格和索引的SQL语句。

shared_schema (ftp://ftp.ncbi./snp/database/shared_schema/)子目录包含dbSNP_main中表格的模式DDL(SQL Data Definition Language)。

shared_data (ftp://ftp.ncbi./snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。

organism_schema (ftp://ftp.ncbi./snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。

主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz文件。

每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz文件。

包含表格和列描述的数据字典位于http://www.ncbi.nlm./SNP/snp_db_list_table.cgi。

SNP的模式实体联系图位于ftp://ftp.ncbi./snp/database/b124/mssql/schema/erd_dbSNP.pdf。

创建dbSNP本地拷贝的资源需求

软件需求：

关系数据库软件，如Sybase, Microsoft SQL server,或 Oracle。 NCBI的dbSNP运行于MSSQL server version 2000。

数据加载工具：将dbSNP FTP站点数据加载到一个数据库需要批量数据加载工具，如伴随Sybase的bcp (bulk-copy)实用程序或MSSQL server的“bulkinsert”命令。

解压ftp文件的winzip/gzip压缩软件。

硬件需求：计算机平台/OS、磁盘空间（500GB）、内存（4G）、Internet连接。

创建dbSNP本地拷贝的具体步骤见：http://www.ncbi.nlm./books/NBK21088/

dbSNP目录结构

点击：ftp://ftp.ncbi.nlm./snp/ 则进入snp网址。dbSNP包含了许多目录，其中最有用的是：organisms/、database/、specs/

相关详细信息见ftp://ftp.ncbi./snp/00readme.txt

FTP的“specs/”目录包含重要的文件的格式，内容及其基本介绍。

FTP的“organisms/”目录包含了一列有SNP数据的生物体目录，其按通用名后接NCBI分类id号来组织的。点击特定的生物体子目录即可访问其中的ftp报表文件，你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录，那么你会发现人体组织子目录包含以下子目录：ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/

/ASN1_bin : ASN.1 二进制格式的RefSNP文档综述（.bin）

/ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)

/XML：提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)

/chr_rpts ：包含特定染色体上的RefSNPs 的完整列表(.txt)

/genotype ：以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)

/genome_reports ：包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log）

/ss_fasta ：包含FASTA格式的生物体的所有可用的submitted SNP（ss）序列数据（.fas)

/rs_fasta ：包含FASTA格式的人类所有可用的参考SNP （RS）序列数据（.fas)

相关详细信息见ftp://ftp.ncbi./snp/00readme.txt

另外一个有用的网址：http://www.ncbi.nlm./variation/view/help/

/chr_rpts 中的txt文件内容：

重要的几个内容是：

1 RefSNP id (rs#)rs代号

2 mapweight where 匹配个数

1 = Unmapped

2 = Mapped to single position in genome

3 = Mapped to 2 positions on a single chromosome

4 = Mapped to 3-10 positions in genome (possible paralog hits)

5 = Mapped to >10 positions in genome.

3 snp_type where snp类型

4 Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数

5 Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数

6 Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数

7 Chromosome for this hit to genome 匹配到的染色体

8 Contig accession for this hit to genome 匹配到conting 序号

11 Position of RefSNP in contig coordinates 在conting中匹配到突变的位置

12 Position of RefSNP in chromosome coordinates (used to order report) 在染色体中匹配到突变的位置

Locations are specified in NCBI sequence location convention where:

x, a single number, indicates a feature at base position x

x..y, denotes a feature that spans from x to y inclusive.

x^y, denotes a feature that is inserted between bases x and y

13 Genes at this same position on the chromosome 匹配到的基因名字

18 Genotypes available in dbSNP for this RefSNP 基因型是否可知

1 = yes

0 = no

gene_report/中有各个基因的突变信息

bed/中包含各个染色体上的snp,如下：

1. chrom: The name of the chromosome (e.g. chr1, chr2, etc.).

2. chromStart: The Reference SNP (rs) start position on the chromosome.

Note: The first base in a chromosome is numbered 0.

3. chromEnd: The rs end position on the chromosome.

Optional Fields:

4. name: The dbSNP Reference SNP (rs) ID

5. score: dbSNP does not assign a score value, so this field will always

contain a 0 .

6. strand: This field defines strand orientation as either + or -.

ASN1_flat /中包含了各个染色体的SNP的详细信息（包含以下9个信息)：rs, ss, SNP, VAL， CLINSIG，GMAF，CTG，LOC，SEQ。每一个的具体信息如下：

具体例子：

VCF/: 具体信息查看：http://www.ncbi.nlm./variation/docs/human_variation_vcf/#table-1

主要的文件内容如下：

主要的突变与临床的关系的文件如下：

也就是clinical.vcf.gz文件中包含了突变与临床的信息，具体文件内容如下：

#CHROM POS ID REF ALT QUAL FILTER INFO

1 948136 rs267598747 G A . . RS=267598747;RSPOS=948136;dbSNPBuildID=137;SSR=0;SAO=3;VP=0x050060000305000002100120;GENEINFO=NOC2L:26155;WGT=1;VC=SNV;PM;REF;SYN;ASP;LSD;CLNALLE=1;CLNHGVS=NC_000001.11:g.948136G>A;CLNSRC=.;CLNORIGIN=2;CLNSRCID=.;CLNSIG=1;CLNDSDB=MedGen:SNOMED_CT;CLNDSDBID=C0025202:2092003;CLNDBN=Malignant_melanoma;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000064926.2

它包含的内容：染色体，突变的位置，rs代号，突变过程，info。其中info包含了突变是否为同义突变？突变实在coding 区还是内含子或UTR？也包含了CLNSIG（0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other）；CLNDSDB（Variant disease database name）；CLNDBN（Variant disease name）

Enterz/目录下的内容如下：

FTP的“database/”目录包含了模式（schema）、数据（data）、为dbSNP创建表和索引的SQL语句。

/shared_schema：包含在dbSNP_main中的所有表格的模式DDL(SQL Data Definition Language)（.sql）

/shared_data：包含存在dbSNP_main中的所有生物体共享的数据（.bcp）

/organism_schema：包含每个生物体具体数据库的模式DDL的链接（实际上是存放各种生物体模式DDL的文件夹）（.sql）

/organism_data：包含每个生物体具体数据库的数据（.bcp）

主表的表索引位于/shared_schema子目录下的dbSNP_main_index_constraint.sql.gz 和dbSNP_main_foreign_key.sql.gz 中

每个生物体的具体数据库的表索引位于/organism_schema：子目录下的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz

erd_dbSNP.pdf:包含整个dbSNP数据库的实体联系图

有关ftp站点目录的部分信息见：http://www.ncbi.nlm./books/NBK44378/

说明：在/organism_data“ 和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。

FTP下的“specs/目录包含dbSNP docsum数据结构的ASN.1和XML规格，以及基因型交换格式、基因型源文档、单倍体提交的规格 (.asn,.xsd,.txt,.pdf,.doc,.xls)

各种文件格式的详细介绍见:

ftp://ftp.ncbi./snp/00readme.txt

等位基因的IUPAC代号

IUPAC code	Meaning
A	A
C	C
G	G
T	T
M	A or C
R	A or G
W	A or T
S	C or G
Y	C or T
K	G or T

SNP 的命名

关于snp位点的命名其实并不统一，大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。 NCBI里对所有提交的snp进行分类考证之后，都会给出一个rs号，也可称作参考snp，并给出snp的具体信息，包括前后序列，位置信息，分布频率等，应该说用这个rs号是比较容易确定搞明白的。一般写法是这样: dbSNP后面跟featureID. featureID一般是rs/ss后跟7-8位数字，比如: rs12345678或者dbSNP|rs12345678

dbSNP数据查询

dbSNP现已并入NCBI的Entrez系统，能使用与其他Entrez数据库（如PubMed 和GenBank）相同的查询方式来查询数据。其中可用的搜索词或字见：http://www.ncbi.nlm./snp/snp_schemaChange_b111.htm

SNP数据库的数据内容分为两类：一类是提交数据，即观察所得的原始序列变异；另一类是计算内容，即通过对原始提交数据的计算在每个“build”周期中产生的内容。

dbSNP批量查询方式：使用一组变异IDs（包括RefSNP (rs) IDs, Submitted SNP (ss) IDs和Local SNP IDs）来生成各种SNP报表。

标记间查询方式：如果你对两个STS（sequence tagged site ,序列标签位点）标记间的特定基因感兴趣，可以使用这种方式。

位点信息查询方式：现已被Entrez Gene方式所取代。

此外还有单记录查询方式、Entrez检索器方式等。

STS：是一段短的DNA序列，通常长度在100到500bp，易于识别，仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS.

NCBI对STS的解释见：http://www.ncbi.nlm./projects/genome/probe/doc/TechSTS.shtml

dbSNP数据库的rs_fasta格式解读

说明：

gnl: object-type=general

dbSNP: Database name

rs193927898: dbSNP rs#

allelePos=151: Offset of SNP in sequence

totallen=301: Total length of sequence

taxid=3702: taxID

snpClass=1: Variation Class

alleles='A/T': List of alleles

snpClass取值解释

snpClass=1	True single nucleotide polymorphism
snpClass=2	Insertion deletion polymorphism; deletions represented by '-' in allele string
snpClass=3	Variation has unknown sequence composition but is observed to be heterozygous
snpClass=4	Microsatellite/simple sequence repeat
snpClass=5	Allele sequences defined by name tag instead of raw sequence
snpClass=6	Submission reports invariant region in surveyed sequence