分享

WGCNA分析详解(三)

 生物_医药_科研 2020-05-05
文献信息如下:

Title:Integrating Genetic and Network Analysis to Characterize Genes Related to Mouse Weight

Published Date:August 18, 2006  

Journal:PLoS Genetics (IF:7.63)

Author:Anatole Ghazalpour(第一作者,Department of Microbiology, Immunology, and Molecular Genetics, University of California Los Angele  ),Steve Horvath2,3*(通讯作者,University of California Los Angeles)  

这个文章可以说是最早的那批使用WGCNA策略来进行关键基因筛选的的文章,可以看到文章的图并不怎么美观,但是这个文章拿出来讲有以下几个原因:

1,作为WGCNA官网教程中示例数据的来源文章,有必要读一下。

2,可以看到文章在选择部分基因进入WGCNA时的策略。

3,可以看到很多参数比如GS,MM等计算的详细公式,以及实际的生物学意义含义。

4,可以看到文章是如何使用WGCNA联合其他分析(eQTL)来与表型Weight进行关联分析的。

数据

1.表达谱:

使用了F2杂交的136个Female小鼠liver样本,3600个基因进行WGCNA分析。

重点:对于选择什么基因进行WGCNA网络分析,这个文章提供了比较详细和特别的理由说明,之前有人问过我用什么基因进入WGCNA分析,这篇文章的选取策略说不定能给你带来收获,原则上只要是一个gene set就可以,可以是全部的表达基因,也可以是上游你做差异分析得到的差异gene set,也就是说这个gene set怎么来的会有很多方法。

For module detection, we limited our analysis to the 3,600 most-connected genes because our module construction method and visualization tools cannot handle larger datasets at this point. By definition, module genes are highly connected with the genes of their module (i.e., module genes tend to have relatively high connectivity). Thus, for the purpose of module detection, restricting the analysis to the most-connected genes should not lead to major information loss. Since the network nodes in our analysis correspond to genes as opposed to probesets, we eliminated multiple probes withsimilar expression patterns for the same gene.  

2.表型数据:

测量了以下这些变量, 本文最关注的是与肥胖相关的体重,是一个数值型变量.

结果

1.Construction of a Weighted Mouse Liver Co-Expression Network

根据3600个基因,总共找到了12个模块,每个模块的基因数从34个基因(Light-yellow 模块)到最大的模块772个基因(Red模块)。模块的平均Kall为6.49 (Salmon模块) 到27.58 (Brown模块)  

由于这个文章比较老,这里作者使用三维图对构建的这个网络进行了可视化,后面的教程都是用的热图进行可视化的方法,这个具体可以看公众号的专题《WGCNA图文详解专题》。图中每一个点表示一个基因,颜色表示模块。点与点之间的距离表示拓扑矩阵中的值(topological overlap Matrix)。我们可以看到相同颜色即一个模块的基因都聚到了一起。

2.Biological Significance of Network Modules

模块找出来了,接着就是探索模块的生物学功能,每个模块都参与了什么样的生物学过程。作者进行了GO数据库和KEGG数据库功能富集分析。比如

Brown模块:Biosynthesis of steroids pathway 和 Glycolysis/Gluconeogenesis pathway相关。 

Blue模块:ECM-receptor interaction pathway 和 Complement and coagulation cascades  pathway相关。

Green模块:the Toll-like receptor signaling  pathway 和 the Cytokine–cytokine receptor interaction pathway以及the Hematopoietic cell lineage  pathway相关。

然后,作者评估了每个模块与表型性状之间的关系,这里用的定义为GS(gene significance),这里可以看到很详细的解释,摘出来给大家体会一下:

这个地方与Weight最相关的模块为Blue模块,使用的指标为MS,即每个模块中所有GS的平均值,现在的WGCNA分析关联表型与模块使用的指标为每个模块的eigengene值与表型性状之间的peason相关系数。

此外,还可以看到Blue module 与abdominal fat pad mass 性状,total mass (g) of other fat depots 性状相关。下图为Blue模块与几个临床性状之间的MS值展示。

因此,作者选择了Blue模块最后下游分析的深入挖掘。

3.Genetic Analysis of the Network Modules

以上结果是关于只使用基因表达数的共表达模块分析。在下面,我们将模块基因表达与遗传标记联系起来

研究该网络遗传基础的数据模块。下图为Blue模块的mQTL 和Candidate cis-eQTL的关系

4.Integration of Genetics and Intramodular Connectivity to Explain Physiological Significance of the Module

最后构建了三个线性模型,并评价了每个模型与Weight (GSweight)  之间的关系

文章最终的结论是:

This indicates that genes with strong linkage to the Chromosome 19 locus, absence of  linkage to the SNPs described on Chromosomes 2, 5, and 10, and high connectivity have the highest absolute correlation with weight.  

总结:针对本篇文章开头列出来的四点,你是否有些收获呢?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多