分享

不懂R,怎么分析GEO的数据(2)?

 栗小酌 2017-07-15

上期我们介绍了通过GEO2R分析GEO的数据(不懂R,怎么分析GEO的数据(1)?),今天我们再来介绍一个好用的工具:


BRB-ArrayTools:https://linus.nci./BRB-ArrayTools/



这个是TCGA官网上附带的一个工具,需要下载安装,

安装后会添加到Excel上,在Excel加载项中可以直接使用:

打开后,我们直接输入GSE85841登录号E85841

然后单击OK,软件是基于R语言的,单击OK后会下载数据,下载后需要进行Log2转换:

单击后在下面的界面中选择Next:

这样数据就导进来了:

这里我们可以设置最小阈值,默认值是10;标准化方法是quantile,我们选择默认:

这里可以设置差异的倍数,默认的是1.5倍:

我们直接选择默认后单击OK就好了,共有24387个基因符合条件:

然后选择注释方式:用默认的:Annotate data with Bioconductor packages:

再选择基因symbol和物种即可:

这样注释就好了。也可以跳过:


接下来,我们接着可以绘制一系列的图,比如散点图和箱式图:

样本与样本之间:

显示表型之间的,癌症和癌旁的:


接下来是箱式图:


我们再看聚类的热图:

在下面的界面中我们选择欧氏距离:

然后单击OK,这里提示由于基因比较多,需要内存空间比较大,大家需要等一下:

单击“是”后大家等一下就出来了:

接下来我们进行比较:

这样我们就能看到结果了:

这里既有FDR,P value,又有倍数,还有基因的信息。


另外,我们还可以进行SAM分析并寻找差异基因:

结果如下:

另外,我们还可以进行预测分类,比如进行PAM分析:

结果如下:

选好后就可以看到结果了:

另外,我们还可以进行生存分析,在红色的框里面,我们分别选择生存状态和时间:

我们就能看到哪些基因与病人的预后有关了:

我们可以单击查看每个基因的生存曲线:

由于样本数量比较少,所以生存曲线的结果不是很平滑。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多