昨天那篇两分半的文章(没看过就点这里),有好多人觉得现在没法发了,但这篇文章就是今年八月份发表的,所以也不是什么“最近”发不了啦。但这也需要有一定的运气的。不管这样的思路是不是能发出什么文章,但如果只有这样的数据挖掘分析,其实并不是很有价值就对了,因为基本上都是各说各话,各找各妈。 如果在这个基础上,有一定的实验验证的话,发个一两分的应该还是可以的。什么验证?比如免疫组化,验证一下是不是样本中有这样的表达现象啊,或者做个qPCR验证验证,这都是比较快速的验证方法。今天我们就把这篇文献到底是怎么做的,一步步分析一遍。 首先,在这篇文献里,大家如果认真看的话,会发现我平时教大家挖便宜数据的时候,都让大家去下载的GEO上的GDS数据,就是那种有热图的。那些,可以直接在GEO的Analysis Tool里面进行分析。但这篇文章用的是GSE的数据,有什么区别呢? 首先我们讲GEO的数据有这么几种:GDS,GSM,GSE和GPL。GSM是单个样品的表达数据,这个样品可能是某个芯片里的一个样本。GPL是表达检测所用的平台,换句话说就是检测方法,用的是基因芯片还是qPCR,还是蛋白芯片,基因芯片用的是哪个公司的那种芯片。GDS当然是我们最熟悉的,某个题目下的多个样本表达的集合,由于使用的实验平台是一致的,所以可以形成热图。GSE比较特殊,是一个实验中多个芯片的组合,可能是用的一样的平台,可能是不同的平台。 好了,我们首先搜一下这个GSE的数据。 打开后,我们会看到这个芯片的数据,所使用的平台,包含的样本情况等等。接着,我们要下载这个“Series Matrix File(s).txt”文件。 虽然是txt文件,但其实很大。 用Excel打开后,会看到这样的数据,开头几行是对这个GSE的注释,而下面是基因名和表达量,基因名其实都是所用平台的基因名,所以我们需要搜索找到GPL的注释文件。 打开刚才的GSE21815界面中的GPL的链接,可以看到里面有对所有这些基因的对应基因名、基因ID、NM号以及探针序列之类的所有注释。就下载下来就可以了。 把对应的基因名复制下来,替换到刚才的表格中。 接着,把GSE数据的表格中的数据部分复制下来,贴到一个新建的txt文件里,这需要蛮多时间,但只有这样我们才能用Morpheus来分析,虽然文献里所采用的GeneSpring也还好啦,但是操作不是很方便,所以我不喜欢用,我们还是用Morpheus吧(不知道怎么用就点这里)。 导入到Morpheus后,进行分析,按照文献里所说的,用T检验来分析,就可以得到这样的和文献里差不多的芯片热图了。 …华丽丽的分割线… 李莫愁博士:今天就先说到这里吧,说多了大家估计大概大家也接受不了。和文献里的这个对比一下,是不是差不多了?我随机挑了个比较了下(上面是文献中的,下面是我分析的): 明天继续来接着将得到的数据他们是怎么来进行GO、Pathway和PPI分析的吧。今天就先策到这里吧。 |
|