WGCNA,全称weighted gene co-expression network analysis,即权重基因共表达网络分析。目前,基因共表达网络不仅可以寻找到功能相似的基因,而且还能找到与我们研究特征相关联的一类基因,从而可以实现将基因表达与表型变化关联起来,挖掘影响性状变化的核心基因或是主要模块,以实现解释复杂生命现象的目的。 ——雨果 背景 RNA-seq数据挖掘的一般逻辑: (1) 按照表达规律对基因归类:两组样本:上 调、不变、下调;数组样本:趋势分析。 (2)对已分类的基因开展功能、调控分析GO、 KEGG分析。 局限性: (1)在大样本中,差异分析或趋势分析无法对基因进行有效分类; (2)依赖现有已知的GO、KEGG数据的功能分析无法推测新的调控关系。 相关概念 简单网络:包括两大元素,j点:图中每一个圆圈代表一个节点,如基因,k边:在基因调控网络中,基因相互间的调控关系构成了边。 无尺度网络:基因间的调控关系是符合无尺度网络的(实际情况)。无尺度网络中大部分的节点只有比较少的连接,而少数节点有大量的连接。 随机网络 无尺度网络 模块(module) :是指一类具有类似表达谱的基因,这些基因在一个生理过程或不同组织中有相似的表达变化,我们就认为这些基因在功能上是相关的,我们就把它定义为一个模块。 模块特征值:模块中的第一主成分,能够反映模块的整体特征,可以被认为是该模块基因表达谱的代表。它是用数学的方法算出模块基因表达量的综合值,来代表这个模块,这个值叫做“模块特征值”,也可以理解为每个模块中有一个“超级基因”,这个基因的表达量是所有基因共同作用的结果。 连通性:一个基因与其他基因的连接程度(通常只在模块内计算)。常称为connectivity或degree,或用数字k表示。有两种计算方法: 非权重网络 权重网络 非权重网络:当两个基因的相关性大于某个值(例如0.8),才认为有相关性(强的才有相关性)。最后某个基因的k值等于与其相关的基因的数量。红圈中的基因k=3。 权重网络:所有两两基因的相关性都被保留(无论强弱)。某个基因的k值等于其与各个基因的相关性之和。红圈中的基因k值=四个相关性数值之和。 核心基因(hub gene):在一个模块中,连通性( k值)排名靠前的基因。 K值排名靠前本身已经表明它们处于中心枢纽的位置。如下图中的A基因。这种核心基因就如同现实中的民航路线图,处于核心位置的北京、上海、广州、成都等中心城市,在整个网络中处于枢纽位置,起着关键的调控作用。 WGCNA网络构建过程 计算基因间的相关性 处理过程: 1)原始S矩阵: Sij=|cor (xi, xj)| #计算基因间两两相关性; 幂函数处理的作用: 1)在幂函数处理后,少量强相关性的关系(例如: r2=0.999)不受影响或影响较 少,相关性弱的关系(例如: r2=0.1)取n次幂后,相关性下降明显。 2) 最后导致网络关系无尺度化:强相关的关系少,弱相关的关系多;连通性高的基因少,连通性弱的基因多。 参数β的确定 不同β值下, m与n的相关性的变化(上一页提到,理论上是负值,应该做过转换)。一般认为取β值大于0.8或到达平台期时最小的β值用于构建网络。 不同β值下,所有基因连通性的均值。 基因间表达调控的相关性 评估两个基因的表达模式的相关性生物学逻辑: 调控的相关性=直接相关 + 间接相关。 TOM矩阵与TOM聚类树 利用TOM(表达相关性)可以构建聚类。 问题:合并相似模块,相似的判断依据是什么? WGCNA网络生物学意义的挖掘 目标模块的选取 每个模块相当于代表一类基因,模块的特征值可以某种程度上代表一类基因的表达模式。样本在各个模块特征值可以和样本的性状,可以开展相关分析,找出与特定性状相关联的模块。 富集分析:模块开展KEGG、 GO功能富集分析,通过富集分析找到与研究相关的模块。 目标基因:如果有目标基因,也可以直接找其所在的模块,然后进行进行下一步分析——模块内的功能调控关系分析。 模块内的分析—基因的模块内连通性:WGCNA模块内输出的Connectivity是模块内的连通性,是这个基因与其他基因相关性之和。 模块内的分析—核心基因:模块中连通性较高的基因(例如人为设定排名前30或前10%),被称为hub基因。高连通性的Hub基因通常为调控因子(调控网络中处于偏上游的位置),而低连通性的基因通常为调控网络中偏下游的基因(例如,转运蛋白、催化酶等)。 模块内的分析—目标基因相关的局部调控网络:从目标基因入手,找与之TOM值排名靠前(例如前10)或TOM值大于某个阈值的基因列表。通过这一策略,可以准确筛选潜在与目标基因存在调控关系的候选基因,这些基因是下阶段功能验证的优先候选。 模块内的分析—关注特定类型的基因:可以结合基因注释信息,关注模块内特定类型的基因,例如转录因子。 |
|