NCBI,The National(美国国家)Center for Biotechnology(生物技术) Information)旨在通过提供biomedical(生物医学)和genomic(基因组)信息供访问来推进科学和健康事业。这是网站首页正中的介绍,短短的一句话表明网站的资源包含两大部分,biomedical和genomic。 能看到的网站中的概括性介绍就是关于 最先能看到的网站中的概括性介绍就是关于NCBI页面,点进去后可以看到。 一般介绍理解大自然静默而优雅的语言,生物细胞的语言,是现代分子(molecular)生物学的追求。从代表DNA的化学亚基(subunits)的4种字母,呈现出了生命的过程的语法,复杂至人。这些『字母』的解开和用来形成新『单字和短语』正是分子生物学领域的核心焦点。分子数据的惊人体量和它们神秘而微妙的模式(cryptic and subtle patterns),使得对计算机数据库(computerized databases)和计算机分析工具的需求成为必然。我们面临的挑战在于发现新的处理数据的量和复杂度的新方式,在于提供给研究者们分析和计算工具更好的访问性,以此来推动我们对基因的遗传(genetic legacy)的理解,对它在健康和疾病中起作用的理解。 创建NCBI已故的Claude Pepper参议员认识到计算机信息处理方法对于生物医学研究开展的重要性,在1988年11月4日提案,建立National Center for Biotechnology Information(国家生物技术信息中心),作为在National Institutes of Health(国立卫生研究院)中的National Library of Medicine(国家医学图书馆)的一个部门。国家医学图书馆因为在创建和维护生物医学数据库方面的经验被选中,并且因为属于国立卫生研究院,可以在计算分子生物学领域建立一个院内研究计划。国立卫生研究院的研究部门集合在一起,构成了世界上最大的生物医学研究机构。 基础研究作为提供分子生物信息的国家资源,NCBI的使命是,为更有助于理解控制健康和疾病的基础分子和遗传过程,而研发新的信息技术。更明确的说,国家生物技术信息中心负责:开发自动化系统,用来存储和分析各种知识,包括分子生物学、生物化学(biochemistry)和遗传学(genetics);促进这些数据库和软件被研究者和医学团体使用;开展基于计算机的信息处理高级方法的研究,来分析重要分子的生物学结构和功能。 为履行这些责任,国家生物技术信息中心: 计算生物学分支
信息工程分支
信息研究分支
基础研究美国国家生物技术信息中心拥有一个多学科(multi-disciplinary)研究组织,该组织由计算机科学家,分子生物学家,数学家,生物化学家,研究医师和结构生物学家,聚焦到基础和应用研究在计算机分子生物学领域。这些研究者不仅做出了重大的贡献到基础科学,也提供了应用的研究行为的新方法的源泉。一起努力,他们研究基础的生物医学问题在分子层面上,使用数学和计算机方法。这些问题包括基因组织(gene organization),序列分析(sequence analysis)和结构预测(structure prediction)。一个例子,当前的研究项目包括:基因组织的发现和分析,重复序列模式,蛋白质结构域和结构要素,绘制人类基因组的基因地图,HIV感染的动力学(kinetics)数学模型,序列错误导致效果的分析提供数据库搜索,数据库搜索新算法的开发,多序列对齐,非冗余(non-redundant)序列数据库的构造,用于评估序列相似性统计学意义的数学模型,用于文本检索的向量模型。还有,美国国家生物技术信息中心研发者保持持续的合作和多个机构在国立卫生研究院,也和众多的学术和政府研究实验室。 数据库和软件美国国家生物技术信息中心负责GenBank DNA 序列数据库在1992年10月。美国国家生物技术信息中心职工有着良好的训练在分子生物领域构造数据库为序列被独立实验室提供的,国际核苷酸(nucleotide)序列数据库,欧洲分子生物实验室(European Molecular Biology Laboratory (EMBL)),日本DNA数据库(DNA Database of Japan (DDBJ))提供的。和美国专利商标局安排,使得可以纳入专利的序列数据。 除了GenBank之外,美国国家生物技术信息中心支持和分发多个数据库为医学和科学社群。这些包括在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man (OMIM)),3D蛋白质结构的分子建模数据库(Molecular Modeling Database (MMDB)),唯一人类基因序列集(Unique Human Gene Sequence Collection (UniGene)),人类基因组的基因图谱(Gene Map of the Human Genome),分类浏览器(the Taxonomy Browser),癌症基因组解剖学项目(Cancer Genome Anatomy Project),和美国国家癌症研究所(National Cancer Institute)合作。 Entrez是国家生物技术信息中心的搜索和检索系统,提供用户完整的到序列,映射,分类和机构化的数据的访问。Entrez也提供序列和染色体映射的图像视图。Entrez的一个强大和独特的特性是检索相关的序列、结构和引用的能力。期刊文献(The journal literature)可以通过PubMed,网页搜索接口提供了访问到超过11百万期刊引文(journal citations)在MEDLINE中,包含到完整文本文章的链接到参与出版商的网站。 BLAST是程序为了在国家生物技术信息中心进行序列相似性检索开发的,是识别基因和遗传特征的工具。BLAST能针对整个DNA数据库在少于15秒钟内执行序列检索。附加软件工具被国家生物技术信息中心提供的包括:开放阅读框架查找器(Open Reading Frame Finder (ORF Finder)),电子模拟聚合酶链式反应(Electronic PCR),序列提交工具(sequence submission tools),Sequin 和 BankIt。所有国家生物技术信息中心的数据库和软件工具从WWW或者通过FTP可用。国家生物技术信息中心也有电子邮件服务器提供可选的方法来访问数据库,为了文字搜索或者序列相似的搜索。 推广和教育国家生物技术信息中心培养科学社区在计算机领域,如应用到分子生物学和基因学,通过赞助会议,研讨会和演讲集。科学访问计划已被安排来扶持院外科学家合作。博士后研究生学位可以作为国立医学研究所院内研究计划的内容。 国家生物技术信息中心计算生物学分支 在国家生物技术信息中心计算生物学分支中的研究集中于理论、分析和应用计算方式到广泛的基础问题在分子生物和医学中。 研究概述(Research Overview)研究计划在计算生物分支正在开展被高级研究员(Senior Investigators),终身研究员(tenure track Investigators),职业科学家(Staff Scientists),博士后研究生(Postdoctoral Fellows),学生们。计划聚焦在理论,分析和应用方式到广泛的基础问题在分子生物学中。 群组的专业知识集中于序列分析,蛋白质结构及功能分析,化学信息,基因组分析。研究兴趣更覆盖于广泛的主题在计算生物学和信息科学。这些包含,但是不限于数据库搜索算法,序列信号识别,演化的数学模型,病毒学统计学方法,化学反应系统的动态行为,统计学文本检索算法(statistical text-retrieval algorithms),蛋白质结构和功能预测,比较基因组学,分类树,人口遗传学,系统生物学。 很多基础研究项目被CBB研究员指导,目标增强和强化的国家生物技术信息中心的公开有效数据库和软件应用工具套装。合作研究努力,在国家生物技术信息中心研究员中,也在外部的研究团体中,目标是创新算法(BLAST, PSI-BLAST, VAST, and COGs)的开发,新的研究方法(相邻文本(text neighboring))和基础资源(PubChem and CDD)改造了计算生物学的领域。算法和应用在当前开发下有潜力到更加高级的科学研究。 CBB的成员显著的贡献到有效和可信赖的国家生物技术信息中心的在线资源,通过回顾数据库中的沉积的数据的质量和有效性,也有信息的精确性用来注释数据的。成员也通过规划和组织科学联盟来确定最有效地利用公共序列资源进行大规模(large-scale)或高通量(high-throughput)实验生物学的领导和指导给予到院外社群(extramural community)。研究合作定义新的研究领域和身份适当的计算机制来解决问题。 下一节,我们一起对NCBI具体资源的内容进行梳理。 |
|