分享

WGCNA新手入门笔记(含代码和数据)

 yjt2004us 2017-11-22

加权基因共表达网络分析(WGCNA,Weighted gene co-expression network analysis)是一个很火的生信分析方法,高分文章很多。

然而很多童鞋敬而远之,因为它是需要跑代码的。其实,WGCNA用起来也没那么难,今天给大家分享一下新手学习WGCNA的经验、常见问题的解决办法,以及如何理解WGCNA分析流程中的关键点,以达到应用的目的。让大家能够入门WGCNA进行实操是我整理这一学习笔记的最终目的。笔记内容涉及到WGCNA的简介,安装运行,代码解析和灵活变换,跑出的图有什么意义等,准备分3-4次说。


WGCNA能够从复杂数据中(N多分组)快速地提取出与样本特征相关的基因共表达模块,以供后续分析。简单地说,它通过计算基因之间的表达相关性,将具有表达相关性的基因聚类到一个模块中,然后再分析模块与样本特征(包括临床特征、手术方式、治疗方法等等)之间的相关性,WGCNA搭建了一座样本特征与基因表达变化之间的桥梁

(WGCNA: an R package for weighted correlation network analysis.)

具体的算法和原理这里不作赘述,这本书里讲得很详细,然而站在我——生信小辣鸡的角度,可能看也看不懂,也用不上。。。

Horvath S (2011) Weighted Network Analysis. Applications in Genomics and Systems Biology. Springer Book. ISBN: 978-1-4419-8818-8


下面通过介绍WGCNA结果中核心的两张图,来讲讲WGCNA具体是干什么的。

1、模块聚类图

(自己瞎跑的图)

这张图是根据你样本中基因表达情况,将共表达的基因聚类到一个个彩色的模块当中,其中灰色模块是没有被接受的基因,后续分析中这一模块的基因就没有什么用了。


2、模块—样本特征相关性分析

(Temporal network analysis identifies early physiological and transcriptomic indicators of mild drought in Brassica rapa)

这张图是样本特征与各个模块的关系,X轴是样本特征,上图中的X轴是植物培养时的几个参数;Y轴对应的就是各个基因共表达模块了。红色表示正相关,蓝色表示负相关,比如Fv'/Fm'——wM11所对应的矩形中的数字为0.79(4e-6),表明wM11模块中的基因与Fv'/Fm'的变化是极具相关性的。所以后续我们可以通过分析wM11模块中的基因来探究这些基因是如何受到Fv'/Fm'的影响,从而对植物表型产生影响的,常用的分析包括GO,KEGG注释,共表达网络分析等等。g

那么这么牛B的工具,在哪里可以得到呢?

首先,你要装一个R语言(https://mirrors.tuna./CRAN/),直接装最新版本的,目前是3.4.2,不过3.4.3很快就要出了。。。

然后你需要安装WGCNA这个包(package),这个包会用到很多其它包,所以下载安装还是需要花点时间的。

连接到bioconductor这个网站,下载WGCNA包。

然后载入WGCNA包就可以使用了。

正式跑程序之前,要改变一下工作目录(程序在哪个文件夹运行,调用哪个文件夹里的数据)(咱用不来代码。。。感觉没这个快)

然后就可以跑程序了。

前期需要准备两个文件,一个是样本信息的文件,一个是基因表达数据的文件。

样本信息文件:

最简单的办法是不做什么分组,每个样本一个分组,然后在下图中进行分析,比如D6,D7和purple这个模块的基因都有高相关性,那么也就是说purple模块的基因可能和D6,D7这两组样本共有的样本特征具有相关性,比如可能是同为肿瘤远端转移样本。

又比如像下图这样根据乳腺癌的临床特征进行分组,ER阳性标为1,阴性标为0,其它类似,构建一个样本特征的文件。具体的分组需要综合考虑你的分析思路,重点关注的是样本的哪些特征。

(https://www./article/88)

基因表达数据的文件:

测序的可以用FPKM的数据

芯片的可以用GEO整理好的表达矩阵

(https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE90841)


我在网盘里上传了一份编辑好的数据和代码,大家可以自己上手先试一试(后面几步可能跑起来会费点时间,大家运行的时候耐心等待),周五的时候会进行代码方面的详细解读。

网盘链接:http://pan.baidu.com/s/1hsAdsyg

网盘密码:onp0


参考文献:

1、http://tiramisutes./2016/09/14/WGCNA.html

2、https://www./article/88

3、http://www.stat./~yandell/statgen/ucla/WGCNA/wgcna.html

4、WGCNA: an R package for weighted correlation network analysis. PMID: 19114008

5、Temporal network analysis identifies early physiological and transcriptomic indicators of mild drought in Brassica rapa. PMID: 28826479


关注后获取《科研修炼手册》1、2、3、4、5,基金篇精华合集


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多