分享

来聊一聊那些五花八门的生信数据库

 解螺旋 2020-08-27

新媒体管家

作者:麦子

转载请注明:解螺旋·临床医生科研成长平台


当我们资源不足时,自然会想要找一些省钱的办法来发文章,穷则思变嘛。生信是个好办法,可是有些医生朋友还是觉得不太熟悉,别说后边的分析方法了,就连最开始找数据都不好找。研究肿瘤的比较有福,肿瘤的数据最丰富了,像大名鼎鼎的TCGA、Ocomine等。可研究其他疾病的怎么办,有没有疾病特异性数据库呢?

资源上哪找

随着研究成果的积累,大大小小的数据库们就冒了出来,驻扎在互联网的各个角落,现在已经有了上千个。

找数据比较权威的资源集中站,是牛津大学出版社的Nucleic Acids Research(NAR)杂志。从1994年开始,NAR每年都要出版分子生物学数据库特辑(database issue),收录新增的数据库、盘点旧数据库的更新状况、移除失效链接等,做个总结。目前最新版是第24版,即2017版。

而所有收录的数据库可以在NAR的网站上找到,下面是一个按字母排序的列表:

https://www./nar/database/a/

不过找起来更方便的可能是按功能分类查找:

https://www./nar/database/c/

NAR把数据库分为15个类别(有些数据库会同时被分到好几个类别):

有些分类下边还有子类别,可以跟据自己的目的逐级点开,找到相应的资源。比如想找个特定的疾病,就点开Human Genes and Diseases,下边还有4个子分类,其中癌症基因数据库是单独一个子类(Cancer gene databases),其他的疾病可以点开Gene-, system- or disease-specific databases,就可看到具体数据库列表。

这当然只是一部分啦~

图中可看到注意力缺陷多动障碍(ADHDgene),自身免疫性淋巴细胞增生综合征(ALPSbase),阿兹海默病(AlzGene)等等。

点进去会有数据库的描述说明,或详或略。并附有数据库网站链接,点进去就是了。

注意数据库的质量

数据库这么多,也有大小之分,当然不是随便一个数据库拿来就用,用了就能得到非常牢靠的研究成果。

一个成功的数据库背后,要有良好的管理维护工作。大数据库为什么著名、好用,是因为有一个大集团在运营。比较著名的机构有美国国家生物技术信息中心(NCBI)、欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)、瑞士生物信息学研究所(SIB)、日本国立遗传学研究所(NIG)、华大基因(BGI)等。

而一些小团队为自己特定的研究领域创建的数据库,质量就参差不齐了,上边提到的疾病特异性数据库大多属于此类。

虽然小团队不容易跟大佬竞争,而且有时候同一个领域会有好几个相似的数据库,NAR也不介意都收录,只要它们符合一定质量条件,且还在运营、维护、为研究者提供服。因为NAR鼓励良性竞争,让那些数据库经历时间的考验证明自己。像研究G蛋白耦联受体的GPCRdb和研究碳水化合物活性酶的CAZy就是小团队的成功范例。

对于用户来说,采用一个数据库做研究之前要多留心,要了解好它的数据来源和运营维护情况,是否有及时回应用户的反馈,是否有版本控制;还要多检索文献,看看这个数据库的使用情况,大家利用它做出了哪些成果,反馈如何等等。必要时可多找几个相关的数据库互相佐证。

参考资料:

1. 生物信息学:基础及应用. 清华大学出版社. 2014.

2. https://academic./nar

3. The 24th annual Nucleic Acids Research database issue: a look back and upcoming changes

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多