GEO数据库挖掘（1）--SCI文章速成

bio_ww 2020-01-02

展开全文

基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO（www.ncbi.nlm.nih.gov/geo/）是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集，约290万个标本，是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据，其中一大部分是芯片（microarray）和测序（RNA sequencing）的数据，有mRNA的，也有lncRNA和miRNA的，还包含一部分甲基化和SNP array的数据。

GEO作为一个公共数据库资源，对所有人公开免费。近几年使用GEO进行数据挖掘发表的SCI文章也日趋增多，说爆发式增长也不为过。为了检验GEO在数据挖掘当中的重要性和普适性，我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索，统计从1991年迄今为止每年的相关文章数量，其结果如下图所示。可以看出，自2008年开始，有关GEO数据挖掘的文章呈指数式爆发，从每年不到100篇，到每年3000篇以上。相对于另一个重要的肿瘤数据库TCGA而言，GEO的相关文章可谓遥遥领先。

现在我们开始正式的学习吧。

首先，先来看看GEO数据库的构成。GEO当中的数据主要分为两大类：用户提交的数据和GEO整理后的数据。其中，用户在提交数据的时候，GEO对数据定义了以下几个概念：Sample (样本)，Series（系列）和 Platform（平台）。

其中“Sample”可以理解为被检测的样本；“Series”可以理解为一项研究中多个样本构成的数据集；而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据时，必须提供以上基本信息。GEO在得到用户上传的数据后，将产生DataSet和Profile两类数据。

GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组（DataSets），能够提供关于一个实验的相关更改，作为下游数据挖掘和数据显示工具的基础。而表达谱（Profile）则来自于DataSets基因表达谱信息，其存储了单个基因表达的数据资料。

熟悉了GEO的构成，后续就是如何分析其中的数据了。为了方便用户对数据进行初步的分析，GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具，这些分析工具可以为我们提供关于数据信息的初步挖掘结果，但是如果想要深入探讨临床表型与基因表达的相关性，或者筛选出发挥重要调控作用的核心基因出来，GEO自带的分析工具就显得有些捉襟见肘了。

后面的课程中，我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据，实现较为复杂的挖掘和绘图，正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注