【原】来聊一聊那些五花八门的生信数据库

解螺旋 2020-08-27

展开全文

作者：麦子

转载请注明：解螺旋·临床医生科研成长平台

当我们资源不足时，自然会想要找一些省钱的办法来发文章，穷则思变嘛。生信是个好办法，可是有些医生朋友还是觉得不太熟悉，别说后边的分析方法了，就连最开始找数据都不好找。研究肿瘤的比较有福，肿瘤的数据最丰富了，像大名鼎鼎的TCGA、Ocomine等。可研究其他疾病的怎么办，有没有疾病特异性数据库呢？

资源上哪找

随着研究成果的积累，大大小小的数据库们就冒了出来，驻扎在互联网的各个角落，现在已经有了上千个。

找数据比较权威的资源集中站，是牛津大学出版社的Nucleic Acids Research（NAR）杂志。从1994年开始，NAR每年都要出版分子生物学数据库特辑（database issue），收录新增的数据库、盘点旧数据库的更新状况、移除失效链接等，做个总结。目前最新版是第24版，即2017版。

而所有收录的数据库可以在NAR的网站上找到，下面是一个按字母排序的列表：

https://www./nar/database/a/

不过找起来更方便的可能是按功能分类查找：

https://www./nar/database/c/

NAR把数据库分为15个类别（有些数据库会同时被分到好几个类别）：

有些分类下边还有子类别，可以跟据自己的目的逐级点开，找到相应的资源。比如想找个特定的疾病，就点开Human Genes and Diseases，下边还有4个子分类，其中癌症基因数据库是单独一个子类（Cancer gene databases），其他的疾病可以点开Gene-, system- or disease-specific databases，就可看到具体数据库列表。

这当然只是一部分啦~

图中可看到注意力缺陷多动障碍（ADHDgene），自身免疫性淋巴细胞增生综合征（ALPSbase），阿兹海默病（AlzGene）等等。

点进去会有数据库的描述说明，或详或略。并附有数据库网站链接，点进去就是了。

注意数据库的质量

数据库这么多，也有大小之分，当然不是随便一个数据库拿来就用，用了就能得到非常牢靠的研究成果。

一个成功的数据库背后，要有良好的管理维护工作。大数据库为什么著名、好用，是因为有一个大集团在运营。比较著名的机构有美国国家生物技术信息中心（NCBI）、欧洲分子生物学实验室-欧洲生物信息学研究所（EMBL-EBI）、瑞士生物信息学研究所（SIB）、日本国立遗传学研究所（NIG）、华大基因（BGI）等。

而一些小团队为自己特定的研究领域创建的数据库，质量就参差不齐了，上边提到的疾病特异性数据库大多属于此类。

虽然小团队不容易跟大佬竞争，而且有时候同一个领域会有好几个相似的数据库，NAR也不介意都收录，只要它们符合一定质量条件，且还在运营、维护、为研究者提供服。因为NAR鼓励良性竞争，让那些数据库经历时间的考验证明自己。像研究G蛋白耦联受体的GPCRdb和研究碳水化合物活性酶的CAZy就是小团队的成功范例。

对于用户来说，采用一个数据库做研究之前要多留心，要了解好它的数据来源和运营维护情况，是否有及时回应用户的反馈，是否有版本控制；还要多检索文献，看看这个数据库的使用情况，大家利用它做出了哪些成果，反馈如何等等。必要时可多找几个相关的数据库互相佐证。

参考资料：

1. 生物信息学：基础及应用. 清华大学出版社. 2014.

2. https://academic./nar

3. The 24th annual Nucleic Acids Research database issue: a look back and upcoming changes