更多科研服务 欢迎扫码咨询小助理 感谢您的认可 生物学已经积累了相当丰富多样和复杂的数据。这些数据可以被分类,但相当难于综合以及用公式进行描述。随着生物学知识大量增加,要完成对数据的处理只能使用计算机。 国际上已建立起许多公共生物分子数据库,包括基区组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。 这些数据库由专门的机构建立和维护,他们负责收集组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。 但是数据库充斥着生物信息的每个角落,要弄清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面: 01 数据库管理系统 数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。 02 数据库模式 数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。 其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。 03 基于数据库的网站 DATABASE WEB SITE 常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如:sFlyBase (http://) ParameciumDB(http://paramecium.cgm.)等。 常说的生物信息数据库资源,也通常指的是该类别的数据库。 04 数据库 在计算机中,其实任何以某种规则组织在一起的数据集,都可以称为数据库,比如经Formatdb格式化的fasta文件,就是Blast程序中所指的数据库。 不过许多情况下都使用一个数据库管理系统来组织数据,选择一个数据库管理系统,比如MySQL,设计好表、字段建立数据库模式,再将相关的数据存放进来,就是一个标准的数据库。 生物信息学中数据库模式 对于一个数据库,数据库管理系统是现成的,关键是学习如何使用,而对于业务本身,最为关键的就是数据库模式的设计,然后才是按照这种方式来组织数据,访问数据。 数据库模式的设计关系到数据库的可扩展性,可维护性,设计的不会有时会非常影响数据库性能。所以其要符合相关的范式标准。 生物信息学领域,许多问题存在共性,比如基因组数据库,我们如何来考虑诸多的数据,包括数据的各种属性,数据之间的关联设计出符合关系数据库范式的模式来,是个很有挑战的事情,即便你是数据库专家,是生物信息方面的专家。 不过这样的问题,已经有人给我们解决了,并且经过了很多的实践,模式得到检验,也开发出了很多操作这些数据库的工具,比如将不同格式的数据导入到数据库中。 CHADO GMOD旗下,访问地址http://www./wiki/Chado,使用Postgres 数据库管理系统。主要包括的模块: Ø Audit – for database audits 审计 Ø Companalysis – for data from computational analysis 数据分析 Ø Contact – for people, groups, and organizations 联系人、组、机构 Ø Controlled Vocabulary (cv) – for controlled vocabularies and ontologies 受控词汇与基因本体 Ø Expression – for summaries of RNA and protein expresssion 基因表达 Ø General – for identifiers 基因功能鉴定 Ø Genetic – for genetic data and genotypes 基因型 Ø Library – for descriptions of molecular libraries 基因文库 Ø Mage – for microarray data 芯片数据 Ø Map – for maps without sequence 图谱 Ø Organism – for taxonomic data 物种分类数据 Ø Phenotype – for phenotypic data 表型数据 Ø Phylogeny – for organisms and phylogenetic trees 系统发育树 Ø Publication (pub) – for publications and references 文献 Ø Sequence – for sequences and sequence features 序列及其shujkctions 组织样本资源 BIOSQL 主页 http:///wiki/Main_Page ,支持MySQL, PostgreSQL, Oracle, HSQLDB等。 BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies). 包含的模块: Ø Sequence 序列 Ø Sequence annotation 序列注释 Ø Phylogeny 系统发育 Ø Publications 文献 ENSEMBL 详细说明参见:http://www./info/docs/api/funcgen/funcgen_schema.html Ø GFF数据库,主要用于GBrowse -Bio::DB::GFF -Bio::DB::SeqFeature Ø GO Gene Ontology 基因本体论数据库,适合对于基因进行GO分类与统计; Ø Taxonomy NCBI的物种分类数据库,可以通过下载的DMP文件,反推得到; Ø PFAM Ø Gene NCBI基因数据库 Ø KEGG Ø SRS Ø OBDA http://obda. Ø Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/ 参考来源: 1.http://boyun./bio/?p=1833 2.https://wenku.baidu.com/view/38b8dd92524de518964b7dd6.html 3.https://www.doc88.com/p-4993408997962.html 生信数据库模式如上文所示,后期小助理会整合更多关于不同类别或者某一方向的数据库信息,以供大家更好的进行数据挖掘,让大家少走弯路。 End 星标一下再走呗! 科研路其修远兮,吾将上下而求索,有烦恼苦闷或者有趣好玩的事情记得告诉小助理,希望陪伴您一起成长。 踌躇满志无限期 扬帆起航正当时 科研小助理为您在线解答 |
|
来自: 启帆医学BioSCI > 《待分类》