【原】必看| 关于生物信息数据库的那些事儿，原来是这样的

启帆医学BioSCI 2020-10-09

展开全文

更多科研服务

欢迎扫码咨询小助理

感谢您的认可

生物学已经积累了相当丰富多样和复杂的数据。这些数据可以被分类，但相当难于综合以及用公式进行描述。随着生物学知识大量增加，要完成对数据的处理只能使用计算机。

国际上已建立起许多公共生物分子数据库，包括基区组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。

这些数据库由专门的机构建立和维护，他们负责收集组织、管理和发布生物分子数据，并提供数据检索和分析工具，向生物学研究人员提供大量有用的信息，最大限度地满足他们研究和应用的需要，为他们的研究服务。

但是数据库充斥着生物信息的每个角落，要弄清楚这个主题，首先要解释一下，在不同场合下“数据库”的不同含义，主要包含4个方面：

数据库管理系统

DBMSs

数据库管理系统（Database management systems , DBMSs)是管理数据的软件系统，比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等，其是数据库的容器，是管理数据库综合软件系统。

数据库模式

DATABASE SCHEMA

数据库模式指特定数据库的设计，也就是其内容的组织方式，就关系型数据库来说，就是其表、表中的列，以及表之间关系的设计。

其可以在不同的数据库管理系统中实现，可以重复使用，构建不同的数据库应用。

基于数据库的网站

DATABASE WEB SITE

常被我称为数据库信息系统，其后台以数据库作为支撑，所有信息都存储在数据库中，通过网页提供访问接口，实现对信息的查询管理，构成一个容易交互的信息系统。生物信息领域内常见的如：sFlyBase (http://) ParameciumDB(http://paramecium.cgm.)等。

常说的生物信息数据库资源，也通常指的是该类别的数据库。

数据库

DATABASE

在计算机中，其实任何以某种规则组织在一起的数据集，都可以称为数据库，比如经Formatdb格式化的fasta文件，就是Blast程序中所指的数据库。

不过许多情况下都使用一个数据库管理系统来组织数据，选择一个数据库管理系统，比如MySQL，设计好表、字段建立数据库模式，再将相关的数据存放进来，就是一个标准的数据库。

生物信息学中数据库模式

对于一个数据库，数据库管理系统是现成的，关键是学习如何使用，而对于业务本身，最为关键的就是数据库模式的设计，然后才是按照这种方式来组织数据，访问数据。

数据库模式的设计关系到数据库的可扩展性，可维护性，设计的不会有时会非常影响数据库性能。所以其要符合相关的范式标准。

生物信息学领域，许多问题存在共性，比如基因组数据库，我们如何来考虑诸多的数据，包括数据的各种属性，数据之间的关联设计出符合关系数据库范式的模式来，是个很有挑战的事情，即便你是数据库专家，是生物信息方面的专家。

不过这样的问题，已经有人给我们解决了，并且经过了很多的实践，模式得到检验，也开发出了很多操作这些数据库的工具，比如将不同格式的数据导入到数据库中。

综合的数据库模式

CHADO

GMOD旗下，访问地址http://www./wiki/Chado，使用Postgres 数据库管理系统。主要包括的模块：

Ø Audit – for database audits 审计

Ø Companalysis – for data from computational analysis 数据分析

Ø Contact – for people, groups, and organizations 联系人、组、机构

Ø Controlled Vocabulary (cv) – for controlled vocabularies and ontologies 受控词汇与基因本体

Ø Expression – for summaries of RNA and protein expresssion 基因表达

Ø General – for identifiers 基因功能鉴定

Ø Genetic – for genetic data and genotypes 基因型

Ø Library – for descriptions of molecular libraries 基因文库

Ø Mage – for microarray data 芯片数据

Ø Map – for maps without sequence 图谱

Ø Organism – for taxonomic data 物种分类数据

Ø Phenotype – for phenotypic data 表型数据

Ø Phylogeny – for organisms and phylogenetic trees 系统发育树

Ø Publication (pub) – for publications and references 文献

Ø Sequence – for sequences and sequence features 序列及其shujkctions 组织样本资源

BIOSQL

主页 http:///wiki/Main_Page ，支持MySQL, PostgreSQL, Oracle, HSQLDB等。

BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies).

包含的模块：

Ø Sequence 序列

Ø Sequence annotation 序列注释

Ø Phylogeny 系统发育

Ø Publications 文献

ENSEMBL

详细说明参见：http://www./info/docs/api/funcgen/funcgen_schema.html

领域内的数据库模式

Ø GFF数据库，主要用于GBrowse

-Bio::DB::GFF

-Bio::DB::SeqFeature

Ø GO Gene Ontology 基因本体论数据库，适合对于基因进行GO分类与统计；

Ø Taxonomy NCBI的物种分类数据库，可以通过下载的DMP文件，反推得到；

Ø PFAM

Ø Gene NCBI基因数据库

Ø KEGG

Ø SRS

Ø OBDA http://obda.

Ø Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/

参考来源：

1.http://boyun./bio/?p=1833

2.https://wenku.baidu.com/view/38b8dd92524de518964b7dd6.html

3.https://www.doc88.com/p-4993408997962.html

生信数据库模式如上文所示，后期小助理会整合更多关于不同类别或者某一方向的数据库信息，以供大家更好的进行数据挖掘，让大家少走弯路。

End

星标一下再走呗!

科研路其修远兮，吾将上下而求索，有烦恼苦闷或者有趣好玩的事情记得告诉小助理，希望陪伴您一起成长。

踌躇满志无限期

扬帆起航正当时

科研小助理为您在线解答

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：启帆医学BioSCI > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

启帆医学BioSCI

关注对话

TA的最新馆藏

换一个角度，如果我是评审人，这样的科研项目申请书我会受理吗？
资料|高端SCI论文写作套路，十八般绝活样样全
收藏|零基础学R，巧妙添加误差棒
资料 | 12式高清生物实验投稿合集！快来一起看看学习一下吧~
资料 | 三本经典足踝外科学图书免费大放送！
资料 | 临床心电图学-中国医科大视频免费领取！快来一起看看吧~

喜欢该文的人也喜欢更多

热门阅读换一换