分享

【数据挖掘专题三】如何制作基因矩阵文件

 田明17grajsnth 2017-09-19


今天我们继续给大家讲解如何通过应用gene spring这个软件给矩阵文件进行基因注释。大家还记得第一讲中,我们从网上下载了矩阵文件和平台注释文件,或许有些同学打开过,但不知道里面的具体内容。这一讲中,我会帮大家一起来理解这两个文件。同时,我们这一讲最后会整理出来一个文件,它是我们后续进行GO分析,KEGG富集等操作的基础,所以非常重要,希望能引起大家重视。

       首先我们不妨先用excel打开矩阵文件,如下图。 该图是小编已经整理过的,第一列代表的是每个芯片的ID,而一行代表的是每个样本的编号,中间的数值代表每个基因在该样本的表达量,这个表达量是经过log处理过的。这里其实就是有一个疑惑,我们其实并不知道每个芯片ID号所对应的基因,这就为我们后续的寻找差异基因就造成了巨大的不便。

接着,我们继续看看平台注释文件(经过整理后)。第一列同样是各个芯片ID号,但是在第F列,我们可以看见是其对应的每个基因的名字。那么,我们有没有办法将每个ID号所对应的基因名字在矩阵文件里进行注释,最终生成基因矩阵文件。办法有很多,可以选择R编程或者自己搞个perl程序,但这必须需要一定的生物信息学功底。这里我们向大家介绍一款软件——gene spring。操作相对简单,容易上手。

打开gene spring后主界面如下所示。然后,我们依次点击Annotations--Create Technology--Custom from file,新建一个自制的平台型号。
      由于小编下载的数据来自鼠的基因,所以在organism选择Mus musculus,在第2栏中导入我们整理好的矩阵文件,

在编号3那一栏选择Many samples。最后一行导入我们之前整理好的平台注释文件。完成后如下图。


在该界面我们在Text qualifier选择“即可。


接下去这一步属于标题格式的调整,我们默认既可。


  以下这一步先在左侧那一空白栏中输入GSM,然后再按refresh键。


   这一步属于平台注释文件的调整,默认就好。


这一步也默认。


 这里我们选择ID,ILMN_Gene和Symbol三个注释列。


   回到该界面后,依次点击Project--New project--OK


则进入下面这个界面


       点击OK后,再在下方的Experiment type里选择Generic Single color,即选择自制芯片类型。

点击OK后,在如图的choose files中导入之前整理好的矩阵文件,然后点击next。


正如第一讲所说,矩阵数据是进行过加工好的文件,所以不需要再数据转化,标准化等处理。


       这时你会发现该表格里面不存在基因名,这里你需要点击下图中红色圈的spreadsheet键。即在最右边出现的基因名。


最后在该表格中右击保存输出,最后用excel稍加整理即可以完成基因矩阵文件,如下图。














    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多