【原】加权基因共表达网络，其实并没有那么神秘

生信修炼手册 2019-12-24

展开全文

WGCNA是目前非常火热的一项研究内容，其全称为weighted correlation network analysis, 直译就是加权基因相关性网络分析。通过这项分析，可以鉴定共表达的基因集合，这样的集合称之为modules, 而且可以将modules与表型数据进行关联分析，挖掘潜在的mark 基因。

这个高大上的分析内容的第一步就是构建基因之间的共表达网络，共表达是常用的分析相关性的一种策略，直接通过线性相关函数来计算相关性，比如pearson， spearman等相关系数，每两个基因之间可以计算出一个相关系数，那么如何构建出相关性网络呢？

在基因的相关性网络中，每个节点代表一个基因，节点之间的连线用来表示两个基因的相关性。在传统的相关性分析中，通常会给定一个阈值，比如相关系数的绝对值必须大于0.9，才认为这两个基因间存在相关性。对应的公式如下

S表示两个基因间的相关系数的绝对值，公式如下

注意是绝对值，因为协同变化的基因可以是正相关，也可以是负相关。给定一个阈值，如果两个基因之间的相关系数大于该阈值，则认为这两个基因存在相关性，在网络图中就用一条线将这两个基因连接起来；如果小于该阈值，则不存在相关性。

通过阈值筛选，将两个基因间的相关系数转换为0和1,0代表没有相关性，1代表有相关性，所有基因之间的关系可以用以下矩阵来表示

 geneA geneB geneC
geneA 0 1 1
geneB 1 0 1
geneC 1 0 0

这样的矩阵称之为邻接矩阵，通过这个矩阵可以直观的表示一个网络，数值为1的点对应的两个基因在网络图中有连线。

用上述方法构建出的网络，称之为非加权的共表达网络，对于两个基因而言，其相关性是有强弱的，是一个在0到1 分为内波动的值，采用上述一刀切的方法，缺失了原本的变化趋势，所以非加权的共表达网络丢失了很多信息。

WGCNA的开发团队提出了加权基因共表达网络的概念，怎么加权呢，公式如下

在计算邻接矩阵中两个基因的值时，将原本的相关系数的绝对值做一个乘方运算。乘方运算强化了相关系数的变化层次，比如原本系数相差，乘方运算后其差距会被拉大，这样使得数据可以区分的更开，有利于后续聚类识别modules, 同时乘方运算也保证了相关性关系的不变性，公式如下

取log之后，二者是一个线性关系，采用乘方运算来计算基因间的邻接矩阵，用该矩阵构建共表达网络时，两个基因之间的连线不在是有无的关系，而有对应的数字的加权了，这个就是加权基因共表达网络。

在构建加权基因共表达网络时有几点注意事项，最关键的一点是样本数目，当样本太少时，简单线性相关系数并不能有效识别基因间的相关性，会出现很多基因间的相关系数完全一致的情况，这样的数据就很难进一步挖掘，官方推荐至少20个样本，另外就是基因表达谱的数据的预处理，在计算相关性时，表达量数值很低的基因容易造成干扰，会发现它与非常多的基因都存在相关性，所以可以指定一个阈值，将表达量很低的基因去除。

·end·