【数据挖掘专题三】如何制作基因矩阵文件

田明17grajsnth 2017-09-19

展开全文

今天我们继续给大家讲解如何通过应用gene spring这个软件给矩阵文件进行基因注释。大家还记得第一讲中，我们从网上下载了矩阵文件和平台注释文件，或许有些同学打开过，但不知道里面的具体内容。这一讲中，我会帮大家一起来理解这两个文件。同时，我们这一讲最后会整理出来一个文件，它是我们后续进行GO分析，KEGG富集等操作的基础，所以非常重要，希望能引起大家重视。

首先我们不妨先用excel打开矩阵文件，如下图。该图是小编已经整理过的，第一列代表的是每个芯片的ID，而一行代表的是每个样本的编号，中间的数值代表每个基因在该样本的表达量，这个表达量是经过log处理过的。这里其实就是有一个疑惑，我们其实并不知道每个芯片ID号所对应的基因，这就为我们后续的寻找差异基因就造成了巨大的不便。

接着，我们继续看看平台注释文件（经过整理后）。第一列同样是各个芯片ID号，但是在第F列，我们可以看见是其对应的每个基因的名字。那么，我们有没有办法将每个ID号所对应的基因名字在矩阵文件里进行注释，最终生成基因矩阵文件。办法有很多，可以选择R编程或者自己搞个perl程序，但这必须需要一定的生物信息学功底。这里我们向大家介绍一款软件——gene spring。操作相对简单，容易上手。

打开gene spring后主界面如下所示。然后，我们依次点击Annotations--Create Technology--Custom from file，新建一个自制的平台型号。
由于小编下载的数据来自鼠的基因，所以在organism选择Mus musculus，在第2栏中导入我们整理好的矩阵文件，