分享

万字长文盘点那些微生物数据库(上)

 微微悦明 2024-05-13 发布于北京

目前国际上已建立起许多公共微生物基因组数据库,这些数据库由专门专业的机构建立和维护,他们负责收集、组织、管理和发布相应数据,并提供数据检索和分析工具,向生物学的研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为科研人员的研究服务。

由于生物信息数据的高速增长,同时为了满足生物信息学及相关领域研究人员迅速获得最新实验数据,大量生物信息数据库应运而生。数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是生物信息学研究必备的工具。好的数据库就像一个宝藏在等待我们挖掘,更像一朵美丽的花,静静的散发芳香。

下面给大家详细介绍以下这些数据库:

(1)NCBI

由美国国立医学图书馆(NLM)于1988年11月4日所建立的National Center forBiotechnology Information,简称NCBI数据库,是国际上三大核苷酸数据库之一。该数据库的主要任务是:1)为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;2)从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;3)促进生物学研究人员和医护人员应用数据库和软件;4)努力协作以获取世界范围内的生物技术信息。

NCBI数据库是一个综合性数据库,包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它的数据来源主要分为三类:1)由测序工作者提交的序列;2)由测序中心提交的大量EST序列和其它测序数据;3)与欧洲分子生物学实验室(EMBL)数据库,日本的DDBJ数据库协作交换数据,进行数据同步。

NCBI数据库的检索查询系统是Entrez,可以为用户提供整合的序列访问,定位,分类,和结构数据的搜索。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。NCBI还提供了序列相似性搜索程序——BLAST,可以作为鉴别基因和遗传特点的手段。BLAST工具能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。所有的NCBI数据库和软件工具均可以从WWW或FTP来获得。

NCBI的网址是:http://www.ncbi.nlm.

(2)EMBL-EBI

欧洲生物信息研究所(EMBL-EBI),全称EMBL - EuropeanBioinformatics Institute,它建立于1994年,是欧洲分子生物学实验室(EMBL,全称European Molecular Biology Laboratory)的一部分。EMBL-EBI数据库向全球提供免费的生物信息服务,发展和维护着多种用于浏览、检索、分析处理生物数据的工具服务。

EMBL核酸序列数据库也被称作EMBL银行,是欧洲最重要的核酸序列资源,其所拥有的DNA和RNA的主要信息来源于单独的研究者、基因组测序计划和应用专利等。同时,该数据库还会与美国的NCBI和日本的DDBJ数据库进行数据交换,保证信息共享。EMBL-EBI发展了多种工具用于浏览和检索生物学相关序列和文献,其中SRS(序列检索系统)是最为强大的浏览/检索工具。SRS为用户提供了快速、便捷和友好的界面以搜索超过400个局域和公众数据库中大量不同种类的生命科学类数据。

EMBL-EBI管理和维护着多个数据库,其中European Nucleotide Archive(ENA)数据库是最著名的一个。ENA数据库收录和展示了与核苷酸测序相关的实验工作流程的所有信息。一个典型的工作流程包括:用于测序的材料的分离和制备;产生测序数据的测序平台;对测序数据进行生物信息学分析的流程。ENA将所有信息都记录在涵盖了输入信息(样本,实验设置,机器配置),输出机器数据(序列条数和质量)和解释信息(拼接,比对,功能注释)的数据模型中。ENA数据库的基本单位也是序列条目,包括核苷酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。

EMBL-EBI的网址是:https://www./ena/browser/home

(3)PATRIC

PATRIC(https://www./)是美国四大生物信息学资源中心之一,致力于收集全面的细菌生物学数据。PATRIC包括细菌、古生菌、病毒以及真核宿主基因组数据。PATRIC定期从不同数据库,包括NCBI、KEGG、CARD、SEED、ResFinder、ArrarExpress、IntAct、BIND、DIP、MINT、BioGRID、PDB,获取抗菌素耐药性、基因组、基因组特征、生物途径、蛋白家族、特殊基因和转录组学数据。然后使用PATRIC注释、GenBank和RefSeq对这些数据进行注释并存储在PATRIC数据库中。PATRIC每月更新并将数据合并到PATRIC中。

原PATRIC: https://www./ 现已合并至:https://www./

(4)DDBJ

日本DNA数据库DDBJ(DNADataBank of Japan),是由国家遗传研究所(NIG)于1984年建立的,也是一个全面的核酸序列数据库,与美国NCBI,欧洲EMBL数据库每日都交换更新数据和信息。

DDBJ主要收录DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,同时也接受其他国家上传的DNA序列。此外,DDBJ数据库还与国家生物科学数据库中心(NBDC)合作,建立了一个专门收录日本人基因型和表型的数据库(JGA),该数据库的数据收集工作都是根据授权协议进行的,其数据的授权发布也仅仅针对特定的研究用途。同时,JGA数据库的访问是受到严格控制的,JGA数据的存储、管理和发布都是由NBDC协同管理的。

DDBJ数据库也提供了序列分析服务,其装备的NIG超级计算机可以专门分析大规模的序列数据。该NIG超级计算机为建设DDBJ数据库和分析服务提供了计算基础设施,并为研究人员提供了大规模的数据分析和超级计算环境。DDBJ数据库可以通过WWW,FTP服务器或e-mail的方式为广大研究人员服务。

DDBJ的网址是:http://www.ddbj.

写了一天才完成了计划的三分之一,后面还有14个数据库准备依次介绍

(未完待续)

长按关注




公众号名称:微微悦明

科学的乐趣是获得新知识的喜悦~

高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多