👏技术贴—WGCNA分析原理和应用！

井里的怪兽 2018-12-10

展开全文

WGCNA，全称weighted gene co-expression network analysis，即权重基因共表达网络分析。目前，基因共表达网络不仅可以寻找到功能相似的基因，而且还能找到与我们研究特征相关联的一类基因，从而可以实现将基因表达与表型变化关联起来，挖掘影响性状变化的核心基因或是主要模块，以实现解释复杂生命现象的目的。

——雨果

背景

RNA-seq数据挖掘的一般逻辑：

（1）按照表达规律对基因归类：两组样本：上调、不变、下调；数组样本：趋势分析。

（2）对已分类的基因开展功能、调控分析GO、 KEGG分析。

局限性：

（1）在大样本中，差异分析或趋势分析无法对基因进行有效分类；

（2）依赖现有已知的GO、KEGG数据的功能分析无法推测新的调控关系。

相关概念

简单网络：包括两大元素，j点：图中每一个圆圈代表一个节点，如基因，k边：在基因调控网络中，基因相互间的调控关系构成了边。

无尺度网络：基因间的调控关系是符合无尺度网络的（实际情况）。无尺度网络中大部分的节点只有比较少的连接，而少数节点有大量的连接。

随机网络

无尺度网络

模块(module) ：是指一类具有类似表达谱的基因，这些基因在一个生理过程或不同组织中有相似的表达变化，我们就认为这些基因在功能上是相关的，我们就把它定义为一个模块。

模块特征值：模块中的第一主成分，能够反映模块的整体特征，可以被认为是该模块基因表达谱的代表。它是用数学的方法算出模块基因表达量的综合值，来代表这个模块，这个值叫做“模块特征值”，也可以理解为每个模块中有一个“超级基因”，这个基因的表达量是所有基因共同作用的结果。

连通性：一个基因与其他基因的连接程度（通常只在模块内计算）。常称为connectivity或degree，或用数字k表示。有两种计算方法：

非权重网络

权重网络

非权重网络：当两个基因的相关性大于某个值（例如0.8），才认为有相关性（强的才有相关性）。最后某个基因的k值等于与其相关的基因的数量。红圈中的基因k=3。

权重网络：所有两两基因的相关性都被保留（无论强弱）。某个基因的k值等于其与各个基因的相关性之和。红圈中的基因k值=四个相关性数值之和。

核心基因（hub gene）：在一个模块中，连通性（ k值）排名靠前的基因。 K值排名靠前本身已经表明它们处于中心枢纽的位置。如下图中的A基因。这种核心基因就如同现实中的民航路线图，处于核心位置的北京、上海、广州、成都等中心城市，在整个网络中处于枢纽位置，起着关键的调控作用。

WGCNA网络构建过程

计算基因间的相关性

处理过程：

1）原始S矩阵： Sij=|cor (xi, xj)| #计算基因间两两相关性；
2）无尺度化（拉大贫富差距），确定最佳β值，得到A矩阵（A矩阵： aij=power (Sij, β)=|Smn|β）

幂函数处理的作用：

1）在幂函数处理后，少量强相关性的关系（例如： r2=0.999）不受影响或影响较少，相关性弱的关系（例如： r2=0.1）取n次幂后，相关性下降明显。

2) 最后导致网络关系无尺度化：强相关的关系少，弱相关的关系多；连通性高的基因少，连通性弱的基因多。

参数β的确定

不同β值下， m与n的相关性的变化（上一页提到，理论上是负值，应该做过转换）。一般认为取β值大于0.8或到达平台期时最小的β值用于构建网络。

不同β值下，所有基因连通性的均值。

基因间表达调控的相关性

评估两个基因的表达模式的相关性生物学逻辑：

调控的相关性=直接相关 + 间接相关。
数学实现过程：基于A矩阵,计算两两基因间的TOM值（TOM值= 直接相关 + 间接相关）。

TOM矩阵与TOM聚类树

利用TOM（表达相关性）可以构建聚类。

问题：合并相似模块，相似的判断依据是什么？

WGCNA网络生物学意义的挖掘

目标模块的选取

每个模块相当于代表一类基因，模块的特征值可以某种程度上代表一类基因的表达模式。样本在各个模块特征值可以和样本的性状，可以开展相关分析，找出与特定性状相关联的模块。

富集分析：模块开展KEGG、 GO功能富集分析，通过富集分析找到与研究相关的模块。

目标基因：如果有目标基因，也可以直接找其所在的模块，然后进行进行下一步分析——模块内的功能调控关系分析。

模块内的分析—基因的模块内连通性：WGCNA模块内输出的Connectivity是模块内的连通性，是这个基因与其他基因相关性之和。

模块内的分析—核心基因：模块中连通性较高的基因（例如人为设定排名前30或前10%），被称为hub基因。高连通性的Hub基因通常为调控因子（调控网络中处于偏上游的位置），而低连通性的基因通常为调控网络中偏下游的基因（例如，转运蛋白、催化酶等）。

模块内的分析—目标基因相关的局部调控网络：从目标基因入手，找与之TOM值排名靠前（例如前10）或TOM值大于某个阈值的基因列表。通过这一策略，可以准确筛选潜在与目标基因存在调控关系的候选基因，这些基因是下阶段功能验证的优先候选。

模块内的分析—关注特定类型的基因：可以结合基因注释信息，关注模块内特定类型的基因，例如转录因子。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：井里的怪兽 > 《WGCNA分析》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

井里的怪兽

关注对话

TA的最新馆藏

深静脉血栓评估你真的做对了吗？这里有一份详细解读送给你
肺癌手术后的随访是怎样的
教你如何解读CT报告
你真的懂胸腔闭式引流瓶吗？
肺部术后评估需要注意什么？看完这个再也不怕写复查片啦
肺癌咳嗽处理指南：别再说只会用可待因了！

喜欢该文的人也喜欢更多

热门阅读换一换