分享

不会计算机的生物学家不是好医生

 微笑如酒 2016-09-02


你以为读研究生来学医的,进来后发现,大部分在搞生物,生物还没搞懂,又要开始涉足计算机了,哈哈,生活就像一盒巧克力,你永远不知道下一颗是什么味道,从未来的趋势来看,不会计算机的生物学家不是好医生。

 

来讲个生物信息学的笑话,“Let's BLAST it!!!”哈哈哈哈,好冷,好好笑!看懂了就是有潜质的孩子,看懂了没?

 

今天我们来简单介绍下常见的生物信息学数据库。将比较常见的数据进行了概述,主要包括:

 

核酸数据库

序列&基因组:GeneBank、UCSC、Ensembl

RNA 序列数据库

RNAcentral

蛋白质数据库

序列&结构:UniPort、PDB

通路&功能注释数据库

KEGG PATHWAY、GO

疾病肿瘤数据库

TCGA、COSMIC、ONCOMINE

 

GenBank是美国国家生物技术信息中心(NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。为保证数据尽可能的完全,GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput  Genomic  Sequences,HTG)、表达序列标记(Expressed  Sequence Tags,EST)、序列标记位点(SequenceTaggedSites,STS)和基因组概览序列(Genome Survey Sequences,dbGSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。

 

UCSC Genome Browser是由Universityof California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。最新版的UCSC基因数据——hg38人类基因数据集发布。UCSC基因注释信息包括参考各种数据库(RefSeqUniProtGenBank)后使用比较基因组学方法得出的已知编码基因和非编码基因的多种异构体信息。给浏览基因组数据提供了可靠迅速地方式。

 

EMBL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。

 

RNA数据库,推荐一个有代表性的RNAcentral。在RNAcentral之前,寻找由特定基因组编码的RNA,需要从几个独立的资源提取信息,例如从miRBase提取micrornA,从HAVANA提取lncRNA信息。RNAcentral1.0提供十种不同专家数据库的数据访问,并提供稳定的登录号,可以始终用于文献、其他分子数据库和搜索引擎中。RNAcentral网站的特点是分面检索,这可让用户根据来源、物种和分子功能,搜索不同的RNA序列。

 

UniPort(http://www./)UniversalProtein 的英文缩写,是信息最丰富、资源最广的蛋白质数据库。整合Swiss-Prot、TrEMBL  和PIR-PSD  三大数据库的数据而成。数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,包含了大量来自文献的蛋白质的生物功能的信息

 

蛋白质数据库(PDB)由美国Brookhaven国家实验室建立。PDB收集的数据来源于x光晶体衍射和核磁共振(NMR)实验测定的生物大分子三维结构数据,经过整理和确认后存档而成,是国际上唯一的生物大分子结构数据档案库。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明。

 

KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

 

GO(gene ontology)是基因本体联合会(GeneOnotology Consortium)所建立的数据库,提供了三层结构的系统定义方式,用于描述基因产物的功能.GO术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO 浏览器”下“GO software page”中找到。大多数GO浏览器都是web模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。有些GO浏览器如AmiGO和QuickGO,可以看到每个术语的注释。

 

美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。和人类基因组计划(HGP)相似,TCGA 是另一项以基因组为基础的大科学研究计划,它以人类基因组计划的成果为基础,研究癌症中基因组的变化。与HGP专注于疾病的遗传因素(与生俱来)不同,TCGA更关心人类出生后细胞中的基因变化(后天变异)。

 

COSMIC被设计为存储和显示的体细胞突变的信息和相关的信息,并包含与人类癌症的信息。

 

ONCOMINE:一个癌症微阵列数据库和整合数据挖掘平台。DNA微阵列技术已经导致肿瘤基因组分析的一个爆炸,产生了大量数据,并覆盖了癌症的复杂基因表达模式。不幸的是,由于缺乏一个统一的生物信息学资源,大多数这些数据在发表后处于停滞且杂乱的状态,没有被癌症研究社区大规模地充分利用。这里,我们提出了ONCOMINE(http://www.),一个癌症微阵列数据库和基于网络的数据挖掘平台,旨在促进来自全基因组表达分析的发现。迄今为止,ONCOMINE包含了由差不多4800万个基因表达测量组成的65套基因表达数据集,构成了超过4700个微阵列实验。比较最主要的癌症类型和各自的正常组织的差异表达分析,以及各种癌症亚型和基于临床及基于病理学的分析可以进行探索。跨所有分析的一个挑选的基因或一个挑选的分析中的多个基因的数据能够被查询及可视化。此外,基因集合能够限制到临床上重要的注释,包括分泌的、激酶、膜和已知基因-药物靶点对以促进新的生物标志物和治疗靶点的发现。

 

好了,今天就策到这里,希望对那些对于生物信息学还没有什么概念的小伙伴有所帮助,扩展知识面,其实数据库还有很多很多。国内现在生物信息学才刚刚起步,但将来应该会是很热门,有先见之明的小伙伴赶紧学起来吧。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多