分享

GEO数据库挖掘(1)--SCI文章速成

 bio_ww 2020-01-02

基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO(www.ncbi.nlm.nih.gov/geo/)是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集,约290万个标本,是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据,其中一大部分是芯片(microarray)和测序(RNA sequencing)的数据,有mRNA的,也有lncRNA和miRNA的,还包含一部分甲基化和SNP array的数据。

GEO作为一个公共数据库资源,对所有人公开免费。近几年使用GEO进行数据挖掘发表的SCI文章也日趋增多,说爆发式增长也不为过。为了检验GEO在数据挖掘当中的重要性和普适性,我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索,统计从1991年迄今为止每年的相关文章数量,其结果如下图所示。可以看出,自2008年开始,有关GEO数据挖掘的文章呈指数式爆发,从每年不到100篇,到每年3000篇以上。相对于另一个重要的肿瘤数据库TCGA而言,GEO的相关文章可谓遥遥领先


现在我们开始正式的学习吧。


 首先,先来看看GEO数据库的构成。GEO当中的数据主要分为两大类:用户提交的数据和GEO整理后的数据。其中,用户在提交数据的时候,GEO对数据定义了以下几个概念:Sample (样本),Series(系列)和 Platform(平台)。

 

其中“Sample”可以理解为被检测的样本;“Series”可以理解为一项研究中多个样本构成的数据集;而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据时,必须提供以上基本信息。GEO在得到用户上传的数据后,将产生DataSet和Profile两类数据。

 

GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组(DataSets),能够提供关于一个实验的相关更改,作为下游数据挖掘和数据显示工具的基础。而表达谱(Profile)则来自于DataSets基因表达谱信息,其存储了单个基因表达的数据资料。


熟悉了GEO的构成,后续就是如何分析其中的数据了。为了方便用户对数据进行初步的分析,GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具,这些分析工具可以为我们提供关于数据信息的初步挖掘结果,但是如果想要深入探讨临床表型与基因表达的相关性,或者筛选出发挥重要调控作用的核心基因出来,GEO自带的分析工具就显得有些捉襟见肘了。


后面的课程中,我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据,实现较为复杂的挖掘和绘图,正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多