分享

👏技术贴—WGCNA分析原理和应用!

 井里的怪兽 2018-12-10

   WGCNA,全称weighted gene co-expression network analysis,即权重基因共表达网络分析。目前,基因共表达网络不仅可以寻找到功能相似的基因,而且还能找到与我们研究特征相关联的一类基因,从而可以实现将基因表达与表型变化关联起来,挖掘影响性状变化的核心基因或是主要模块,以实现解释复杂生命现象的目的。

——雨果


背景

RNA-seq数据挖掘的一般逻辑:

(1) 按照表达规律对基因归类:两组样本:上 调、不变、下调;数组样本:趋势分析。

(2)对已分类的基因开展功能、调控分析GO、  KEGG分析

局限性:

(1)在大样本中,差异分析或趋势分析无法对基因进行有效分类

(2)依赖现有已知的GO、KEGG数据的功能分析无法推测新的调控关系

相关概念

简单网络:包括两大元素,j点:图中每一个圆圈代表一个节点,如基因,k边:在基因调控网络中,基因相互间的调控关系构成了边。

无尺度网络:基因间的调控关系是符合无尺度网络的(实际情况)。无尺度网络中大部分的节点只有比较少的连接,而少数节点有大量的连接。

随机网络

无尺度网络

模块(module) 是指一类具有类似表达谱的基因,这些基因在一个生理过程或不同组织中有相似的表达变化,我们就认为这些基因在功能上是相关的,我们就把它定义为一个模块。

模块特征值模块中的第一主成分,能够反映模块的整体特征,可以被认为是该模块基因表达谱的代表。它是用数学的方法算出模块基因表达量的综合值,来代表这个模块,这个值叫做“模块特征值”,也可以理解为每个模块中有一个“超级基因”,这个基因的表达量是所有基因共同作用的结果

连通性:一个基因与其他基因的连接程度(通常只在模块内计算)。常称为connectivity或degree,或用数字k表示。有两种计算方法:

非权重网络

权重网络

非权重网络当两个基因的相关性大于某个值(例如0.8),才认为有相关性(强的才有相关性)。最后某个基因的k值等于与其相关的基因的数量。红圈中的基因k=3。

权重网络所有两两基因的相关性都被保留(无论强弱)。某个基因的k值等于其与各个基因的相关性之和。红圈中的基因k值=四个相关性数值之和

核心基因(hub gene)在一个模块中,连通性( k值)排名靠前的基因。 K值排名靠前本身已经表明它们处于中心枢纽的位置。如下图中的A基因。这种核心基因就如同现实中的民航路线图,处于核心位置的北京、上海、广州、成都等中心城市,在整个网络中处于枢纽位置,起着关键的调控作用




WGCNA网络构建过程

计算基因间的相关性

处理过程:

1)原始S矩阵: Sij=|cor (xi, xj)|  #计算基因间两两相关性
2)无尺度化(拉大贫富差距),确定最佳β值,得到A矩阵(A矩阵: aij=power (Sij, β)=|Smn|β)

幂函数处理的作用:

1)在幂函数处理后,少量强相关性的关系(例如: r2=0.999)不受影响或影响较  少相关性弱的关系(例如: r2=0.1)取n次幂后,相关性下降明显

2) 最后导致网络关系无尺度化强相关的关系少,弱相关的关系多;连通性高的基因少,连通性弱的基因多。

参数β的确定

不同β值下, m与n的相关性的变化(上一页提到,理论上是负值,应该做过转换)。一般认为取β值大于0.8到达平台期时最小的β值用于构建网络。

不同β值下,所有基因连通性的均值。

基因间表达调控的相关性

评估两个基因的表达模式的相关性生物学逻辑:

调控的相关性=直接相关 + 间接相关。
数学实现过程:基于A矩阵,计算两两基因间的TOM值(TOM值= 直接相关 + 间接相关)。

TOM矩阵与TOM聚类树

利用TOM(表达相关性)可以构建聚类。

问题:合并相似模块,相似的判断依据是什么?

WGCNA网络生物学意义的挖掘

目标模块的选取

      每个模块相当于代表一类基因,模块的特征值可以某种程度上代表一类基因的表达模式。样本在各个模块特征值可以和样本的性状,可以开展相关分析,找出与特定性状相关联的模块

富集分析:模块开展KEGG、 GO功能富集分析,通过富集分析找到与研究相关的模块。

目标基因:如果有目标基因,也可以直接找其所在的模块,然后进行进行下一步分析——模块内的功能调控关系分析。

模块内的分析—基因的模块内连通性:WGCNA模块内输出的Connectivity是模块内的连通性,是这个基因与其他基因相关性之和

模块内的分析—核心基因:模块中连通性较高的基因(例如人为设定排名前30或前10%),被称为hub基因。高连通性的Hub基因通常为调控因子(调控网络中处于偏上游的位置),而低连通性的基因通常为调控网络中偏下游的基因(例如,转运蛋白、催化酶等)。

模块内的分析—目标基因相关的局部调控网络:从目标基因入手,找与之TOM值排名靠前(例如前10)或TOM值大于某个阈值的基因列表。通过这一策略,可以准确筛选潜在与目标基因存在调控关系的候选基因这些基因是下阶段功能验证的优先候选

模块内的分析—关注特定类型的基因:可以结合基因注释信息,关注模块内特定类型的基因,例如转录因子。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多