【原】NCBI（美国国家生物技术信息中心）的资源架构（上篇）

健明 2021-07-14

展开全文

NCBI，The National（美国国家）Center for Biotechnology（生物技术） Information）旨在通过提供biomedical（生物医学）和genomic（基因组）信息供访问来推进科学和健康事业。这是网站首页正中的介绍，短短的一句话表明网站的资源包含两大部分，biomedical和genomic。

能看到的网站中的概括性介绍就是关于

NCBI的概括性介绍

最先能看到的网站中的概括性介绍就是关于NCBI页面，点进去后可以看到。

我们的使命

一般介绍

理解大自然静默而优雅的语言，生物细胞的语言，是现代分子（molecular）生物学的追求。从代表DNA的化学亚基（subunits）的4种字母，呈现出了生命的过程的语法，复杂至人。这些『字母』的解开和用来形成新『单字和短语』正是分子生物学领域的核心焦点。分子数据的惊人体量和它们神秘而微妙的模式（cryptic and subtle patterns），使得对计算机数据库（computerized databases）和计算机分析工具的需求成为必然。我们面临的挑战在于发现新的处理数据的量和复杂度的新方式，在于提供给研究者们分析和计算工具更好的访问性，以此来推动我们对基因的遗传（genetic legacy）的理解，对它在健康和疾病中起作用的理解。

创建NCBI

已故的Claude Pepper参议员认识到计算机信息处理方法对于生物医学研究开展的重要性，在1988年11月4日提案，建立National Center for Biotechnology Information（国家生物技术信息中心），作为在National Institutes of Health（国立卫生研究院）中的National Library of Medicine（国家医学图书馆）的一个部门。国家医学图书馆因为在创建和维护生物医学数据库方面的经验被选中，并且因为属于国立卫生研究院，可以在计算分子生物学领域建立一个院内研究计划。国立卫生研究院的研究部门集合在一起，构成了世界上最大的生物医学研究机构。

基础研究

作为提供分子生物信息的国家资源，NCBI的使命是，为更有助于理解控制健康和疾病的基础分子和遗传过程，而研发新的信息技术。更明确的说，国家生物技术信息中心负责：开发自动化系统，用来存储和分析各种知识，包括分子生物学、生物化学（biochemistry）和遗传学（genetics）；促进这些数据库和软件被研究者和医学团体使用；开展基于计算机的信息处理高级方法的研究，来分析重要分子的生物学结构和功能。

为履行这些责任，国家生物技术信息中心：

· 使用数学和计算机方法在分子层面上开展基础生物医学问题的研究

· 和多个国立卫生研究院，学术界（academia），工业界（industry）和其他政府部门保持合作

· 通过举办学术会议、学术研讨和系列课程促进科学交流

· 通过美国国立卫生研究院研究计划（NIH Intramural Research Program），支持博士后研究生在计算生物学领域的基础和应用研究培训

· 通过科学访问计划（Scientific Visitors Program）聘请国际科学团体的成员开展信息研究和培训

· 为科学和医学团体开发、发布、支持和确保一致性的到多个数据库和软件的访问

· 研发和促进数据库标准、数据存储和交换以及生物学命名法（nomenclature）

组织架构

计算生物学分支

在以下方面开展基础和应用研究：在分子生物学和基因学领域内的计算机学、数学和理论问题，包含基因组学、序列比较、序列搜索方法、高分子（macromolecular）结构、动态和交互，以及结果和功能预测。
简历协作的研究项目在计算分子生物学领域，包含生物学、化学、数学和计算机科学在国立卫生研究院院内实验室，其他的政府机构，学术界和工业界。
咨询和建议为了政府机构和研究实验室在计算机基础的分析工具的应用程序为了研究分子生物学
互动分子生物组织为了增强wet-bench，基于实验室的研究通过计算机学的应用和理论学习方法。

信息工程分支

执行应用的研究在数据表达和分析，包含基于计算机系统存储、管理和知识获取和分子生物学、基因学以及生物化学
为表达分子生物信息的多种形式设计数据库结构和规格，包含核酸、蛋白质和机构信息。这些数据库都是国家资源
为从原型到操作层面设计和开发可发布的软件系统，使用本地和远程的计算服务提供研究
一致化公开的访问到序列、基因学、结构和参考数目，方法是构建策划和整合的数据库，尽可能的建立到外部数据库的连接。
建立合作的信息研究项目，和国立卫生研究院院内实验室一起，和其他院外的学术组织
咨询和建议其他的政府机构和研究实验室为了更好的软件和数据库设计高级方法
开发和提供标准为了数据库，数据交换和生物学命名

信息研究分支

计划、指导和管理技术操作，属于美国国家生物技术信息中心的，包含计算机系统用来研究和开发的，如同用来访问公开数据库的计算机系统
提供技术辅助给美国国家生物技术信息中心职员，提供支持给外部的用户属于美国国家生物技术信息中心网络服务
有监督的网络操作为了美国国家生物技术信息中心和配合其他的政府机构为国家和国际访问到美国国家生物技术信息中心
组织教学示范和讲习班为了生物医学的社区来培养美国国家生物技术信息中心信息服务的用户
计划、开发和管理政府协议和合作协议来促成设备和服务支持美国国家生物技术信息中心信息功能
联络员为用户支持服务到机构包含到全基因组项目
实施应用研究和研发，提供技术的咨询和指导，明确用户需求。开展调查来改进美国国家生物技术信息中心开发的软件的在生物用户社区的进展
协同其他政府机构和生物信息资源来促进数据资料库（repositories）在美国国家生物技术信息中心的开发。

计划和活动

基础研究

美国国家生物技术信息中心拥有一个多学科（multi-disciplinary）研究组织，该组织由计算机科学家，分子生物学家，数学家，生物化学家，研究医师和结构生物学家，聚焦到基础和应用研究在计算机分子生物学领域。这些研究者不仅做出了重大的贡献到基础科学，也提供了应用的研究行为的新方法的源泉。一起努力，他们研究基础的生物医学问题在分子层面上，使用数学和计算机方法。这些问题包括基因组织（gene organization），序列分析（sequence analysis）和结构预测（structure prediction）。一个例子，当前的研究项目包括：基因组织的发现和分析，重复序列模式，蛋白质结构域和结构要素，绘制人类基因组的基因地图，HIV感染的动力学（kinetics）数学模型，序列错误导致效果的分析提供数据库搜索，数据库搜索新算法的开发，多序列对齐，非冗余（non-redundant）序列数据库的构造，用于评估序列相似性统计学意义的数学模型，用于文本检索的向量模型。还有，美国国家生物技术信息中心研发者保持持续的合作和多个机构在国立卫生研究院，也和众多的学术和政府研究实验室。

数据库和软件

美国国家生物技术信息中心负责GenBank DNA 序列数据库在1992年10月。美国国家生物技术信息中心职工有着良好的训练在分子生物领域构造数据库为序列被独立实验室提供的，国际核苷酸（nucleotide）序列数据库，欧洲分子生物实验室（European Molecular Biology Laboratory (EMBL)），日本DNA数据库（DNA Database of Japan (DDBJ)）提供的。和美国专利商标局安排，使得可以纳入专利的序列数据。

除了GenBank之外，美国国家生物技术信息中心支持和分发多个数据库为医学和科学社群。这些包括在线人类孟德尔遗传数据库（Online Mendelian Inheritance in Man (OMIM)），3D蛋白质结构的分子建模数据库（Molecular Modeling Database (MMDB)），唯一人类基因序列集（Unique Human Gene Sequence Collection (UniGene)），人类基因组的基因图谱（Gene Map of the Human Genome），分类浏览器（the Taxonomy Browser），癌症基因组解剖学项目（Cancer Genome Anatomy Project），和美国国家癌症研究所（National Cancer Institute）合作。

Entrez是国家生物技术信息中心的搜索和检索系统，提供用户完整的到序列，映射，分类和机构化的数据的访问。Entrez也提供序列和染色体映射的图像视图。Entrez的一个强大和独特的特性是检索相关的序列、结构和引用的能力。期刊文献（The journal literature）可以通过PubMed，网页搜索接口提供了访问到超过11百万期刊引文（journal citations）在MEDLINE中，包含到完整文本文章的链接到参与出版商的网站。

BLAST是程序为了在国家生物技术信息中心进行序列相似性检索开发的，是识别基因和遗传特征的工具。BLAST能针对整个DNA数据库在少于15秒钟内执行序列检索。附加软件工具被国家生物技术信息中心提供的包括：开放阅读框架查找器（Open Reading Frame Finder (ORF Finder)），电子模拟聚合酶链式反应（Electronic PCR），序列提交工具（sequence submission tools），Sequin 和 BankIt。所有国家生物技术信息中心的数据库和软件工具从WWW或者通过FTP可用。国家生物技术信息中心也有电子邮件服务器提供可选的方法来访问数据库，为了文字搜索或者序列相似的搜索。

推广和教育

国家生物技术信息中心培养科学社区在计算机领域，如应用到分子生物学和基因学，通过赞助会议，研讨会和演讲集。科学访问计划已被安排来扶持院外科学家合作。博士后研究生学位可以作为国立医学研究所院内研究计划的内容。

国家生物技术信息中心计算生物学分支

在国家生物技术信息中心计算生物学分支中的研究集中于理论、分析和应用计算方式到广泛的基础问题在分子生物和医学中。

研究概述（Research Overview）

研究计划在计算生物分支正在开展被高级研究员（Senior Investigators），终身研究员（tenure track Investigators），职业科学家（Staff Scientists），博士后研究生（Postdoctoral Fellows），学生们。计划聚焦在理论，分析和应用方式到广泛的基础问题在分子生物学中。

群组的专业知识集中于序列分析，蛋白质结构及功能分析，化学信息，基因组分析。研究兴趣更覆盖于广泛的主题在计算生物学和信息科学。这些包含，但是不限于数据库搜索算法，序列信号识别，演化的数学模型，病毒学统计学方法，化学反应系统的动态行为，统计学文本检索算法（statistical text-retrieval algorithms），蛋白质结构和功能预测，比较基因组学，分类树，人口遗传学，系统生物学。

很多基础研究项目被CBB研究员指导，目标增强和强化的国家生物技术信息中心的公开有效数据库和软件应用工具套装。合作研究努力，在国家生物技术信息中心研究员中，也在外部的研究团体中，目标是创新算法(BLAST, PSI-BLAST, VAST, and COGs)的开发，新的研究方法（相邻文本（text neighboring））和基础资源（PubChem and CDD）改造了计算生物学的领域。算法和应用在当前开发下有潜力到更加高级的科学研究。

CBB的成员显著的贡献到有效和可信赖的国家生物技术信息中心的在线资源，通过回顾数据库中的沉积的数据的质量和有效性，也有信息的精确性用来注释数据的。成员也通过规划和组织科学联盟来确定最有效地利用公共序列资源进行大规模（large-scale）或高通量（high-throughput）实验生物学的领导和指导给予到院外社群（extramural community）。研究合作定义新的研究领域和身份适当的计算机制来解决问题。

下一节，我们一起对NCBI具体资源的内容进行梳理。