一、数据下载 首先打开GEO网站,搜索GSE79737,点击GPL16570 参考数据信息。
可以知道,样本的第一列是探针信息,gene_assignment是比对上的基因id,不过比对上的id有很多种,这里需要用后面简单处理下。
按照教程下载
然后打开生信人GEO_Convert.exe工具。
点击选择文件读入GSE79737_family.xml.tgz 注意此处选择的时候,要看数据列是第二列(一般都是),然后看他其实是已经取过log了。 然后ID处要注意,选择刚才看到的gene_assignment列。
然后点击导出样本信息,导出数据矩阵。
三、筛选差异 然后打开DECenter筛选差异。 并将刚才导出的数据矩阵,样本信息和输出目录选择好。
点击样本信息按钮,查看信息
看是配对样本。可以选择limma进行分析。(由于我这个数据质量不是很好,所以这里我选择P<>),abs(log2(FC))>1。 然后样本类型列选择treatment,运行导出。 如果结果不好,可以反复的调整p和lfc进行结果优化。
结果会有三个文件,第一个limma.txt格式如下
第一列是基因id,第二列是log2(FC),第三列是表达值,第四列是t值,第五列是p值,第六列是调整之后的p值(fdr),第七列是B值。这个文件可以用于后面绘制火山图。 其中第一列、第二列,第六列是比较重要的指标。 然后看筛选出来的差异基因。也就是Diff.txt.
重要的信息是第二列,第六列和最后一列。 然后看下TopExp.txt。这些是差异基因在各个样本中的表达情况,可以用于后面绘制热图。
四、绘制火山图 打开生信人绘制火山图工具,选择PBS;-vs-MG;.limma.txt文件(因为我这个显著的不多,所以用全部的来绘制。) 然后通过调整点的大小调整图片,还是可以看到零星的几个点。
五、绘制热图 绘制热图之前,打开topExp这个文件,修改id列
选中第一列,将其复制到第二个表格或者空白处。
选择对其进行分列,由于id之间是通过//分割,所以分列是选择/来分割,然后将gene_symble列复制到原图表中。
结果如下
打开聚类热图绘制工具,导入刚才处理完的表格。
然后选中RowZ-score,默认欧式聚类进行聚类。
|
|