【原】WGCNA最佳案例-癌症分子亚型特异性模块

健明 2022-05-09 发布于广东省

展开全文

其实WGCNA本身是对基因进行合理（加权共表达）的分组。

如果一个表达量矩阵，里面的样品是两个分组，比如正常和对照，那么简单的差异分析就可以拿到上下调基因，各自可以去富集生物学通路，就是基因分组了，并没有太多的进行WGCNA分析的必要性，而且绝大部分的两个分组的表达量矩阵里面的样品数量通常是小于15个的，官方也并推荐WGCNA分析。
如果一个表达量矩阵，里面的样品是时间序列这样的多分组，比如处理前后以及处理过程的不同时间梯度或者不同浓度，那么我们就需要每个分组都去跟对照组进行差异分析，上下调的组合非常多，结果也很难精炼出生物学结论，这个时候就可以选择WGCNA或者mfuzz这样的时间序列分析。

也就是说，只要是多分组，就涉及到多次差异分析，而且多分组意味着样品数量肯定不少，这样的话，在这个表达量矩阵里面，不同基因之间可以计算合理的相关性，就可以根据基因之间的相似性进行基因划分为不同的模块了。

最近看到了一个纯WGCNA数据挖掘，但是可视化做的比较好的文章：《A network approach reveals driver genes associated with survival of patients with triple-negative breast cancer》，链接：https:///10.1016/j.isci.2021.102451

理解它需要有乳腺癌背景知识，比如它的表达量分子分型通常是是 lumA、lumB、basal、HER2 等亚型，其中每个分子分型其实也可以细分，比如TNBC可以继续进一步细分为3~7种亚型。

其实WGCNA就单次分析

乳腺癌表达量矩阵队列：RNA quantitation (N = 777; TCGA RNA-seq cohort），各个分子分型病人数量是：

Luminal A (N = 226),
Luminal B (N = 118),
HER2-enriched (N = 57).
TNBC tumor subtype cases (N = 92)

基本上纳入了全部的基因31,338 gene ，得到了22个模块，如下所示：

不同的基因各自组合成为22个模块

这些模块后续可以理解为一个基因集合，它本质上也可以看做是一个“假基因”，它就可以去跟各个性状继续关联分析：

模块跟各个性状关联

因为我们有预先的背景知识，所以文章就找 lumA、lumB、basal、HER2 等亚型各自特异性的模块，并且着重于描述 TNBC tumor subtype（约等于 basal ）这个目前最恶性的乳腺癌亚型。

接下来就是常规差异分析，生存分析组合拳啦。我在生信技能树多次分享过生存分析的细节；

接下来是学徒-小贝的分享

前面他分享了：WGCNA原理及实操，我就顺便让他读一下这个文献。

A network approach reveals driver genes associated with survival of patients with triple-negative breast cancer
April 19, 2021; IF=5.4
https:///10.1016/j.isci.2021.102451

1、WGCNA分析

（1）对773个来自TCGA的BRCA(包括92个TNBC)的31338个基因表达数据进行WGCNA网络共表达分析

计算邻接矩阵的相关性指标选择 bicor(biweight midcorrelation)
得到22个模块，计算模块相关的ME与kME

ME：每个样本对于每个模块的特征值
kME：每个基因对于每个模块的相关性

（2）使用方差分析，根据WGCNA鉴定的样本模块ME特征值与BRCA样本的subtype，发现与亚型分型最相关的12个模块

前期根据每个模块的基因组成进行富集分析，注释每个模块的相关通路(GO BP)
其中M12模块与TNBC分析最正相关(bicor = 0.69)；M2模块与TNBC最负相关(bicor = -0.69)

（3）对模块进行聚类分析，发现22个模块可以分为3类；其中的两类与TNBC相关，但相反(anti-correlated)

对于每个模块的样本ME值与样本TRAIT数据进行相关性分析，其中重点关注与样本的TNBC二分类以及生存时间的相关性。目标是希望找到与TNBC二分类正相关与生存时间负相关的模块。
发现M12为代表的一类模块（M7，M21，M17，M8）与TNBC正相关，生存时间负相关，统称为M12-like module
发现M2为代表的一类模块（M11，M5，M19）与TNBC负相关，与生存时间正相关，统称为M2-like module
综上找到与TNBC分型相关的两大类模块，包括9个模块

与TNBC正相关表明，模块特征值越大，越符合TNBC；与TNBC正相关表明，模块特征值越小，越符合TNBC。

2、差异分析与生存分析

（1）差异分析：使用T检验，分析TNBC分别与其它三种BRCA subtype的差异基因 BH FDR校正

取三次差异分析结果中具有相同方向的显著TNBC DEG，共1518个。

（2）模块ME生存分析：基于TCGA的773样本的RFS状态进行生存分析

首先分析每个模块的ME高低分组与生存的相关性：分为M12-like与M2-like两类模块讨论，总体来说M2-like模块低表达组(lower ME)的样本更容易复发；M12-like模块与之相反。

（3）单基因生存分析：基于GEO的1234个样本的RFS状态进行生存分析

根据之前的差异分析结果，标记M12 TNBC top20(相对Luminal A)的上调基因；标记M2 TNBC top20(相对Luminal A)的下调基因。进行单基因生存分析。
结果发现M12模块的PSAT1、ART3等5个基因；M2模块的TFF1、SCUBE2等6个基因具有生存显著相关性。

3、GIANT分析

（1）挑选出M2-like、M12-like的hub基因（Top10，kME>0.6）

（2）使用GIANT数据库(http://giant-v2./)搜索在乳腺组织中，与这些hub gene高相关的基因。

对于M2、M12模块也加入哪些虽然不是hub，但是生存高相关的基因。

（3）结果发现M7，M21，M17，M8，M12，M2这6个模块，具有较高的连接度关系

M12模块的hub基因，PSAT1，YBX1，MTHFD1L具有最高的连接度。
M2模块中整体连接度比较高，hub基因ESR1，TFF1，SCUBE2等基因比较特殊。

4、预后模型

基于GEO的1234个BRCA样本的RFS状态，训练基因组合模型，使用ROC曲线评价模型对于BRCA以及TNBC的预测性能。
如下式，定义一个score：分子来自与TNBC负相关的M2-like module的基因；分母来自与TNBC正相关的M12-like module的基因。

分子与分母的基因数保持相同，即基因数比（1:1,2:2,3:3）；每个基因的权重设置为1。
若M2相关基因的表达值越低、同时M12相关基因的表达越高；则score值就越低→越符合TNBC。

4.1 第一轮ROC

选用来自第二步中挑选的11个来自M2(5)、M12(6)，与生存相关的TNBC差异基因。

共有381种模型组合可能；
对BRCA预测最佳模型的基因组合为（ERBB4 + SCUBE2 + TFF1/ART3 + FZD9 + PSAT1），但是在TNBC中表现不佳。
ERBB4/FZD9组合在TNBC的5年生存率预测中效果最佳

4.2 第二轮ROC

扩大基因的选择范围，考虑更多的module 差异基因或者hub基因

分子包括ERBB4、SCUBE2等24个来自M2-like 模块；分母包括ART3, FZD9,PSAT1等34个来自M12-like 模块；
共有11385种组合可能（包括1:1, 2:2, 3:3）；
针对TNBC的Top最佳模型在TNBC中性能明显优于上一轮，但在BRCA数据中预测性能最低；
最佳基因组合为(BIK +GPRC5C+ SPTLC2/CEBPB + DUSP4 + TPO)，而且大些基因大多出现在Top100 TNBC模型中。

4.3 第三轮ROC

在第二轮的最佳TNBC模型6基因的基础上，手动根据文献添加补充候选基因；
最终敲定最优的9基因模型对TNBC具有良好的特异性，对BRCA性能一般。
最后在TCGA的BRCA数据上取得了验证。

小结：这篇文章目的是找到一个特异性针对TNBC的预后模型的基因组合。首先使用WGCNA找到与TNBC分型相关的模块，然后结合差异分析、生存分析以及组织间基因相互作用分析从关键模块定位到关键基因。关于模型基因组合，第一次见到本文的计算（类似于传统riskscore）方式，觉得比较新奇；结合三轮ROC分析，不断增加候选基因，筛选了1W+的基因组合，最终获得了一个理想的模型。

写在文末

我在《生信技能树》，《生信菜鸟团》，《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的，有任何疑问欢迎留言讨论，也可以发邮件给我，详细描述你遇到的困难的前因后果给我，我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助，让你茅塞顿开，或者说你的课题大量使用我的技能，烦请日后在发表自己的成果的时候，加上一个简短的致谢，如下所示：

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所（当然包括中国大陆）的时候，如果有这样的情谊，我会优先见你。