分享

那些微生物数据库(你用或不用,它就在那里~)

 微微悦明 2021-12-13

目前国际上已建立起许多公共微生物基因组数据库,这些数据库由专门专业的机构建立和维护,他们负责收集、组织、管理和发布相应数据,并提供数据检索和分析工具,向生物学的研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为科研人员的研究服务。

由于生物信息数据的高速增长,同时为了满足生物信息学及相关领域研究人员迅速获得最新实验数据,大量生物信息数据库应运而生。数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是生物信息学研究必备的工具。好的数据库就像一个宝藏在等待我们挖掘,更像一朵美丽的花,静静的散发芳香。

今天给大家详细介绍以下这些最漂亮的花儿/数据库:

  1. NCBI数据库

  2. EMBL-EBI数据库

  3. DDBJ数据库

  4. GOLD数据库

  5. 生命与大健康数据中心

  6. 世界微生物数据中心

  7. 微生物基因组数据库

01
NCBI

    由美国国立医学图书馆(NLM)于1988114日所建立的National Center forBiotechnology Information,简称NCBI数据库,是国际上三大核苷酸数据库之一。该数据库的主要任务是:1为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;2)从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;3)促进生物学研究人员和医护人员应用数据库和软件;4)努力协作以获取世界范围内的生物技术信息。

NCBI数据库是一个综合性数据库,包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它的数据来源主要分为三类:1)由测序工作者提交的序列;2)由测序中心提交的大量EST序列和其它测序数据;3)与欧洲分子生物学实验室(EMBL)数据库,日本的DDBJ数据库协作交换数据,进行数据同步。

NCBI数据库的检索查询系统是Entrez,可以为用户提供整合的序列访问,定位,分类,和结构数据的搜索。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。NCBI还提供了序列相似性搜索程序——BLAST,可以作为鉴别基因和遗传特点的手段。BLAST工具能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。所有的NCBI数据库和软件工具均可以从WWW或FTP来获得。

NCBI的网址是:http://www.ncbi.nlm.

02
EMBL-EBI

欧洲生物信息研究所(EMBL-EBI),全称EMBL - EuropeanBioinformatics Institute,它建立于1994年,是欧洲分子生物学实验室(EMBL,全称European Molecular Biology Laboratory)的一部分。EMBL-EBI数据库向全球提供免费的生物信息服务,发展和维护着多种用于浏览、检索、分析处理生物数据的工具服务。

EMBL核酸序列数据库也被称作EMBL银行,是欧洲最重要的核酸序列资源,其所拥有的DNA和RNA的主要信息来源于单独的研究者、基因组测序计划和应用专利等。同时,该数据库还会与美国的NCBI和日本的DDBJ数据库进行数据交换,保证信息共享。EMBL-EBI发展了多种工具用于浏览和检索生物学相关序列和文献,其中SRS(序列检索系统)是最为强大的浏览/检索工具。SRS为用户提供了快速、便捷和友好的界面以搜索超过400个局域和公众数据库中大量不同种类的生命科学类数据。

EMBL-EBI管理和维护着多个数据库,其中European Nucleotide Archive(ENA)数据库是最著名的一个。ENA数据库收录和展示了与核苷酸测序相关的实验工作流程的所有信息。一个典型的工作流程包括:用于测序的材料的分离和制备;产生测序数据的测序平台;对测序数据进行生物信息学分析的流程。 ENA将所有信息都记录在涵盖了输入信息(样本,实验设置,机器配置),输出机器数据(序列条数和质量)和解释信息(拼接,比对,功能注释)的数据模型中。ENA数据库的基本单位也是序列条目,包括核苷酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。

EMBL-EBI的网址是:http://www./embl/

03
DDBJ

日本DNA数据库DDBJ(DNA DataBank of Japan),是由国家遗传研究所(NIG)于1984年建立的,也是一个全面的核酸序列数据库,与美国NCBI,欧洲EMBL数据库每日都交换更新数据和信息。

DDBJ主要收录DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,同时也接受其他国家上传的DNA序列。此外,DDBJ数据库还与国家生物科学数据库中心(NBDC)合作,建立了一个专门收录日本人基因型和表型的数据库(JGA),该数据库的数据收集工作都是根据授权协议进行的,其数据的授权发布也仅仅针对特定的研究用途。同时,JGA数据库的访问是受到严格控制的,JGA数据的存储、管理和发布都是由NBDC协同管理的。

DDBJ数据库也提供了序列分析服务,其装备的NIG超级计算机可以专门分析大规模的序列数据。该NIG超级计算机为建设DDBJ数据库和分析服务提供了计算基础设施,并为研究人员提供了大规模的数据分析和超级计算环境。DDBJ数据库可以通过WWW,FTP服务器或e-mail的方式为广大研究人员服务。

DDBJ的网址是:http://www.ddbj./。

04
GOLD

Genomes Online Database(GOLD)数据库是由美国能源联合基因组研究所(DOE JGI),于1999年建立的。该数据库是一个综合性数据库,收录了基因组和宏基因组测序项目及其相关元信息。GOLD数据库是基于四级分类明确的系统构成的,用于区分不同组织和更好的实现元数据的跟踪和管理。这四个层级分别是科研项目,生物样品或有机体,测序项目(SP)和分析项目(AP)。每个级别都有自己一套独一无二的元数据字段,并可以链接到一个或多个级别上去。

GOLD数据库中的数据主要来自三种来源:1)研究者自己存储的项目数据;2)来自于公共数据库的资源,如NCBI的BioProject和BioSample数据库;3)来自于JGI机构所测序的项目。用户需要对所存储的数据进行定期查看,从而确保存储数据的准确性和一致性。同时,GOLD数据库作为一个开创性的集中式公共资源,可以用于监控测序项目及其相关元数据,促进项目的管理和序列数据的比较分析。

GOLD数据库提供免登录的方式对数据进行查询浏览,检索方式快捷方便,具有用户友好的网页设计。GOLD数据库提供了与综合微生物基因组(IMG)系统的无缝对接,并支持和促进了Genomic Standards Consortium(GSC)的最低信息标准。

GOLD的网站:https://gold.jgi./


05
生命与健康大数据中心

生命与健康大数据中心(The BIG Data Center),是由中国科学院北京基因组研究所于2016年推出的。该数据库作为北京基因组研究所的重要研究单元,承担了相关公共数据库资源体系的研究与建设,面向我国人口健康和社会可持续发展的重大战略需求,围绕国家精准医学和重要战略生物资源的组学数据,建立海量生物组学大数据储存、整合与挖掘分析研究体系,发展组学大数据系统构建、挖掘与分析的新技术、新方法,建设组学大数据汇交、应用与共享平台。

BIGD数据库主要分为六个部分,分别是:基于高通量测序的原始组学数据归档库(GenomeSequence Archive,GSA),围绕国家重要战略生物资源的基因组数据库(GenomeWarehouse,GWH),基于测序数据的基因表达数据库(Gene expression Nebulas,GEN),基于中国人群以及国家重要物种群体的基因组变异数据库(GenomeVariation Map,GVM),基于全基因组DNA甲基化图谱的表观基因组数据库(MethylationBank,MethBank)以及基于大众审编的生命科学维基知识库(ScienceWikis)。BIGD数据库目前具备5000个以上CPU计算核心及总容量超过8PB数据存储资源,已经开发形成了一系列的多组学数据库系统,初步形成了我国生命与健康数据交汇与共享的平台,具备可服务于全球的基因组数据共享网络。

生命与健康大数据中心网址:http://bigd.


06
世界微生物数据中心

近日,国际核酸类重要学术期刊《Nucleic Acids Research》杂志在线发表了中科院微生物研究所微生物资源与大数据中心、世界微生物数据中心团队题为“World Data Centre for Microorganisms: an information infrastructure to explore and utilize preserved microbial strains worldwide”的研究论文。微生物资源与大数据中心、世界微生物数据中心主任马俊才为本文通讯作者。

微生物作为最简单的生命体成为生命科学研究不可替代的基本材料, 微生物数据是微生物资源共享和开发的关键环节,数据资源的丰富性、准确性和共享水平决定着整个微生物学领域研究和应用的综合能力。世界微生物数据中心(World data center for microorganisms, WDCM,以下简称WDCM)隶属于国际生命科学联盟(IUBS)下属的世界微生物菌种保藏联合会(WFCC)和联合国教科文组织(UNESCO)下属的国际微生物资源中心(MIRCEN),由世界菌种保藏联盟在上世纪60年代建立,是全球微生物领域最重要的实物资源数据平台,也是我国生命科学领域唯一的一个世界数据中心。

在本研究中,团队以世界微生物数据中心(World data center for microorganisms, WDCM)为平台倡导全球微生物菌种保藏目录(global Catalogue of Microorganisms,GCM)重大微生物数据资源国际合作计划,在为分散于全球各个保藏中心和科学家手中宝贵的微生物资源提供一个全球统一的数据仓库,并以统一数据门户的形式,对全世界科技界和产业界提供微生物菌种资源的信息服务。目前已经有来自美国、法国、德国、荷兰等43个国家和地区的107个国际微生物资源保藏机构正式参加这一计划。

http://www./index.html


07
微生物基因组数据库

       微生物基因组数据库管理系统是由中国疾病预防控制中心传染病预防控制所创建和管理的。微生物基因组数据库旨在建立病原微生物领域专业的数据库,并提供基因组数据检索、下载和信息共享服务,为用户提供全面的公开可用的基因组和宏基因组数据,同时实现基因组数据的在线动态可视化展示,方便科研人员进行数据的分析和管理。

微生物基因组数据库综合了细菌、古细菌的基因组,以及人、环境、动物、植物的相关样本的宏基因组序列信息。数据库的数据来源于:研究者和研究机构测序数据的提交;公共数据的下载整合。所有数据通过统一标准进行收录整理,方便研究人员进行数据分析和共享。数据的检索方式多样,具有模糊搜索,高级搜索,分类搜索及热词搜索四种检索方式,便于用户对数据的查询浏览。序列信息提供可视化展示,通过鼠标的拖拽,放大和缩小功能,使序列信息浏览更直观。同时,数据库具有充足的存储空间,为了保证数据上传下载的速度和稳定性,数据库开发了相应的客户端,用于数据的上传和下载。数据库的网站和客户端都具有友好的用户界面,使用简单方便。

微生物基因组数据库管理系统网址:http://data.

想了解如何使用吗? 下方的视频告诉您

参考文献

NCBI Resource Coordinators. Database Resources ofthe National Center for Biotechnology Information [J].NucleicAcids Research, 2017, 45(D1):D12-D17.

ToribioA L, Alako B, Amid C, et al. European Nucleotide Archive in 2016[J]. NucleicAcids Research, 2017, 45(D1):D32.

MashimaJ, Kodama Y, Fujisawa T, et al. DNA Data Bank of Japan[J]. Nucleic AcidsResearch, 2017, 45(D1):D25-D31.

MukherjeeS, Stamatis D, Bertsch J, et al. Genomes OnLine Database (GOLD) v.6: dataupdates and feature enhancements [J]. Nucleic Acids Research, 2016.

AndrewY, Wasiu A, Ridwan A M, et al. Ensembl 2016[J]. Nucleic Acids Research, 2016,44(D1):D710-D716.

BIGData Center members. The BIG Data Center: from deposition to integration totranslation [J]. Nucleic Acids Research, 2017, 45(D1):D18.

讲师介绍

张婷婷,中国疾病预防控制中心传染病预防控制所,生物信息分析师,微生物基因组数据库项目技术负责人。长期从事基于全基因组的病原微生物的鉴定以及微生物领域大数据的科研与应用工作。

点击下方

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多