dbSNP:database of SNP(Wikipedia:The Single Nucleotide Polymorphism Database)单核苷酸多态性数据库dbSNP(http://www3.ncbi.nlm./SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列。 dbSNP的数据结构
完整的数据以多种格式存于ftp站点:ftp://ftp.ncbi./snp/
shared_schema (ftp://ftp.ncbi./snp/database/shared_schema/)子目录包含dbSNP_main中表格的模式DDL(SQL Data Definition Language)。 shared_data (ftp://ftp.ncbi./snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。 organism_schema (ftp://ftp.ncbi./snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。 主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql.gz和dbSNP_main_foreign_key.sql.gz文件。 每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz文件。 包含表格和列描述的数据字典位于http://www.ncbi.nlm./SNP/snp_db_list_table.cgi。 创建dbSNP本地拷贝的资源需求 软件需求: 关系数据库软件,如Sybase, Microsoft SQL server,或 Oracle。 NCBI的dbSNP运行于MSSQL server version 2000。 数据加载工具:将dbSNP FTP站点数据加载到一个数据库需要批量数据加载工具,如伴随Sybase的bcp (bulk-copy)实用程序或MSSQL server的“bulkinsert”命令。 解压ftp文件的winzip/gzip压缩软件。 硬件需求:计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。 创建dbSNP本地拷贝的具体步骤见:http://www.ncbi.nlm./books/NBK21088/ dbSNP目录结构 点击:ftp://ftp.ncbi.nlm./snp/
相关详细信息见ftp://ftp.ncbi./snp/00readme.txt FTP的“organisms/”目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/ /ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin) /ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat) /XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml) /chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt) /genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml) /genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log) /ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas) /rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas) 另外一个有用的网址:http://www.ncbi.nlm./variation/view/help/ /chr_rpts 重要的几个内容是:
gene_report/中有各个基因的突变信息 bed/中包含各个染色体上的snp,如下:
ASN1_flat
/中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss,
SNP, VCF/: 具体信息查看:http://www.ncbi.nlm./variation/docs/human_variation_vcf/#table-1 主要的文件内容如下:
#CHROM POS 1 它包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变?突变实在coding 区还是内含子或UTR?也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name) Enterz/目录下的内容如下: FTP的“database/”目录包含了模式(schema)、数据(data)、为dbSNP创建表和索引的SQL语句。 /shared_schema:包含在dbSNP_main中的所有表格的模式DDL(SQL Data Definition Language)(.sql) /shared_data:包含存在dbSNP_main中的所有生物体共享的数据(.bcp) /organism_schema:包含每个生物体具体数据库的模式DDL的链接(实际上是存放各种生物体模式DDL的文件夹)(.sql) /organism_data:包含每个生物体具体数据库的数据(.bcp) 主表的表索引位于/shared_schema子目录下的dbSNP_main_index_constraint.sql.gz 和dbSNP_main_foreign_key.sql.gz 中 每个生物体的具体数据库的表索引位于/organism_schema:子目录下的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz erd_dbSNP.pdf:包含整个dbSNP数据库的实体联系图 有关ftp站点目录的部分信息见:http://www.ncbi.nlm./books/NBK44378/ 说明:在/organism_data“ 和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。 FTP下的“specs/目录包含dbSNP docsum数据结构的ASN.1和XML规格,以及基因型交换格式、基因型源文档、单倍体提交的规格 (.asn,.xsd,.txt,.pdf,.doc,.xls) 各种文件格式的详细介绍见: ftp://ftp.ncbi./snp/00readme.txt 等位基因的IUPAC代号
SNP 的命名
关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。 dbSNP数据查询 dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。其中可用的搜索词或字见:http://www.ncbi.nlm./snp/snp_schemaChange_b111.htm SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。 dbSNP批量查询方式:使用一组变异IDs(包括RefSNP (rs) IDs, Submitted SNP (ss) IDs和Local SNP IDs)来生成各种SNP报表。 标记间查询方式:如果你对两个STS(sequence tagged site ,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。 位点信息查询方式:现已被Entrez Gene方式所取代。 此外还有单记录查询方式、Entrez检索器方式等。 STS:是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS. NCBI对STS的解释见:http://www.ncbi.nlm./projects/genome/probe/doc/TechSTS.shtml dbSNP数据库的rs_fasta格式解读 说明: gnl: object-type=general dbSNP: Database name rs193927898: dbSNP rs# allelePos=151: Offset of SNP in sequence totallen=301: Total length of sequence taxid=3702: taxID snpClass=1: Variation Class alleles='A/T': List of alleles snpClass取值解释
解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage
Disequilibrium)进行复杂性遗传疾病(multiple
genes diseases)的相关性研究上也扮演重要的角色
|
|
来自: 昵称44541692 > 《待分类》