分享

加权基因共表达网络,其实并没有那么神秘

 生信修炼手册 2019-12-24

WGCNA是目前非常火热的一项研究内容,其全称为weighted  correlation network analysis, 直译就是加权基因相关性网络分析。通过这项分析,可以鉴定共表达的基因集合,这样的集合称之为modules, 而且可以将modules与表型数据进行关联分析,挖掘潜在的mark 基因。

这个高大上的分析内容的第一步就是构建基因之间的共表达网络,共表达是常用的分析相关性的一种策略,直接通过线性相关函数来计算相关性,比如pearson, spearman等相关系数,每两个基因之间可以计算出一个相关系数,那么如何构建出相关性网络呢?

在基因的相关性网络中,每个节点代表一个基因,节点之间的连线用来表示两个基因的相关性。在传统的相关性分析中,通常会给定一个阈值,比如相关系数的绝对值必须大于0.9,才认为这两个基因间存在相关性。对应的公式如下

S表示两个基因间的相关系数的绝对值,公式如下



注意是绝对值,因为协同变化的基因可以是正相关,也可以是负相关。给定一个阈值,如果两个基因之间的相关系数大于该阈值,则认为这两个基因存在相关性,在网络图中就用一条线将这两个基因连接起来;如果小于该阈值,则不存在相关性。

通过阈值筛选,将两个基因间的相关系数转换为0和1,0代表没有相关性,1代表有相关性,所有基因之间的关系可以用以下矩阵来表示

geneA geneB geneC geneA 0 1 1 geneB 1 0 1 geneC 1 0 0

这样的矩阵称之为邻接矩阵,通过这个矩阵可以直观的表示一个网络,数值为1的点对应的两个基因在网络图中有连线。

用上述方法构建出的网络,称之为非加权的共表达网络,对于两个基因而言,其相关性是有强弱的,是一个在0到1 分为内波动的值,采用上述一刀切的方法,缺失了原本的变化趋势,所以非加权的共表达网络丢失了很多信息。

WGCNA的开发团队提出了加权基因共表达网络的概念,怎么加权呢,公式如下

在计算邻接矩阵中两个基因的值时,将原本的相关系数的绝对值做一个乘方运算。乘方运算强化了相关系数的变化层次,比如原本系数相差,乘方运算后其差距会被拉大,这样使得数据可以区分的更开,有利于后续聚类识别modules, 同时乘方运算也保证了相关性关系的不变性,公式如下

取log之后,二者是一个线性关系,采用乘方运算来计算基因间的邻接矩阵,用该矩阵构建共表达网络时,两个基因之间的连线不在是有无的关系,而有对应的数字的加权了,这个就是加权基因共表达网络。

在构建加权基因共表达网络时有几点注意事项,最关键的一点是样本数目,当样本太少时,简单线性相关系数并不能有效识别基因间的相关性,会出现很多基因间的相关系数完全一致的情况,这样的数据就很难进一步挖掘,官方推荐至少20个样本,另外就是基因表达谱的数据的预处理,在计算相关性时,表达量数值很低的基因容易造成干扰,会发现它与非常多的基因都存在相关性,所以可以指定一个阈值,将表达量很低的基因去除。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多