今天我们继续给大家讲解如何通过应用gene spring这个软件给矩阵文件进行基因注释。大家还记得第一讲中,我们从网上下载了矩阵文件和平台注释文件,或许有些同学打开过,但不知道里面的具体内容。这一讲中,我会帮大家一起来理解这两个文件。同时,我们这一讲最后会整理出来一个文件,它是我们后续进行GO分析,KEGG富集等操作的基础,所以非常重要,希望能引起大家重视。 首先我们不妨先用excel打开矩阵文件,如下图。 该图是小编已经整理过的,第一列代表的是每个芯片的ID,而一行代表的是每个样本的编号,中间的数值代表每个基因在该样本的表达量,这个表达量是经过log处理过的。这里其实就是有一个疑惑,我们其实并不知道每个芯片ID号所对应的基因,这就为我们后续的寻找差异基因就造成了巨大的不便。 接着,我们继续看看平台注释文件(经过整理后)。第一列同样是各个芯片ID号,但是在第F列,我们可以看见是其对应的每个基因的名字。那么,我们有没有办法将每个ID号所对应的基因名字在矩阵文件里进行注释,最终生成基因矩阵文件。办法有很多,可以选择R编程或者自己搞个perl程序,但这必须需要一定的生物信息学功底。这里我们向大家介绍一款软件——gene spring。操作相对简单,容易上手。 打开gene spring后主界面如下所示。然后,我们依次点击Annotations--Create Technology--Custom from file,新建一个自制的平台型号。 在编号3那一栏选择Many samples。最后一行导入我们之前整理好的平台注释文件。完成后如下图。 在该界面我们在Text qualifier选择“即可。 接下去这一步属于标题格式的调整,我们默认既可。 以下这一步先在左侧那一空白栏中输入GSM,然后再按refresh键。 这一步属于平台注释文件的调整,默认就好。 这一步也默认。 这里我们选择ID,ILMN_Gene和Symbol三个注释列。 回到该界面后,依次点击Project--New project--OK 则进入下面这个界面
点击OK后,在如图的choose files中导入之前整理好的矩阵文件,然后点击next。 正如第一讲所说,矩阵数据是进行过加工好的文件,所以不需要再数据转化,标准化等处理。 这时你会发现该表格里面不存在基因名,这里你需要点击下图中红色圈的spreadsheet键。即在最右边出现的基因名。 最后在该表格中右击保存输出,最后用excel稍加整理即可以完成基因矩阵文件,如下图。 |
|
来自: 田明17grajsnth > 《Go KEGG》