基因共表达——基因共表达网络分析

Amazing427 2018-10-08

展开全文

Gene co-expression（基因共表达）是一种使用大量基因表达数据构建基因间的相关性，从而挖掘基因功能的一类分析方法。
在很多情况下，有着相似行为/变化的物质，会存在着一定的联系。在生物中，存在于同一个通路的基因在表达值上，会表现出共表达的趋势（co-expression patterns），通过这个特性可以进行基因功能（一般的基因注释是通过序列的相似性，而通过基因共表达可以进行功能同源基因的注释）、module等的挖掘，这是一种guilt-by-association的思想。

module 指的是在共表达网络中，一组相互连接紧密的node（基因），一般认为一个module中的基因在功能上是相关的。通常通过设定阕值来进行寻找

在共表达分析中，有两种有效的策略Guide-genes 和Non-targeted：

image.png

Guide-genes策略是，先找到感兴趣的基因/通路的共表达基因，进行可视化，然后再加入另外的基因，看两次加入的基因之间存在怎样的关系，以此来基因的关系。
Non-targeted 策略与Guide-genes不同，它没有感兴趣的基因，所以它从头构建了所有表达数据的共表达网络，然后寻找其中的module。然后然后去探究module的功能。

Non-target策略中检测module的方法

image.png

module的检测是基因共表达网络分析中非常重要的一步，一般有两种方法：top-down（A）和 bottom-up（B）
top-down方法是将两个相互连接的区域进行分离，每个区域各自是具有比较高的Network density，区域之间的连接较区域内的连接是少比较多的。这样便可以将两个区域分开，各自当成一个module。
bottom-up方法是在一个单独的区域中，不断加入单个基因，检测这个单基因是否与区域内大部分基因具有共表达关系，判断是否能融于区域中。可以看做一个已有的module的扩增过程。

Pearson’s correlation coefficient（PCC）

有很多方法可以进行相关系数的计算，PCC是其中普遍使用的一种。
公式：

image.png

在共表达网络构建中，PCC可以对一对基因在不同样本中的表达值的趋势进行检测、定量。PCC取值在-1到1之间，PCC=-1时，表示这两个基因具有完全相反的表达趋势；PCC=1时，表示这两个基因的表达趋势是相同的。
PCC对outliers（异常值）非常敏感，所以如果两个基因在某个样本中的表达值都非常的高，PCC会认为它们完全相关（PCC=1）。当这种表达值本身是错的时，这种完全相关的关系便是错误的。Spearman’s correlation coefficient (SCC)相较于PCC，具有更大的robust，可以比较好的解决这种情况。但是也有outliers是正确的情况。

PCC值的cutoff

正常情况下，在低PCC值（绝对值）的区域中表现的高网络密度（network densities：a ratio of the observed number of links to all
possible links.），是不具有显著相关性的，因为低PCC值下的network densities是由低PCC值连接组成的。

image.png

而高PCC值（高于0.55-0.66）下的network densities则具有比较高的显著性，当然它的node（基因）会更少。
P-value筛选，在进行基因共表达网络的构建时，一般使用0.05作为阕值，进行显著性相关值的筛选。

样本数据的选择

两个基因的共表达表现的是在所选择的样本数据情况下的两个基因的关系（比如，样本选择的都是在胁迫条件下的，则共表达关系表现的是胁迫条件下，两个基因所表现出来的。如果是随机选择的样本，则得到的共表达关系是普遍适用的一类关系），所以样本的选择对基因共表达分析有很大的影响。
可以分为四类样本选择方法：

第一类，尽可能多的选择不同条件下的样本数据去计算相关性。这一种可以被认为是 condition-independent 的分析方法，它是和不同的组织、处理不想关的，表现出来的是最基础的基因间共表达关系。
第二类，使用特定条件下的功能表达数据，称为condition-dependent。例如选择在生长过程中某一时间段的表达量数据或者不同浓度盐处理下的表达量数据。在这种情况下，得到的共表达网络，更具有针对性。
第三类，由用户自由选择哪类型的表达量数据进行组合。比如某个用户想看一下盐胁迫下与非盐胁迫下根的共表达情况，则用户便可以自由进行选择。当然这种情况只能是在具有足够多的表达量数据的情况下，才能使用。
第四类，由用户自己上传数据进行计算。

随机样本条件下样本数目大小的影响（基因芯片数据）

在不同物种中样本（随机样本）数目与network densities的关系不大一样，在拟南芥中，关系如图

image.png

表明，在拟南芥中network density在样本（随机样本）数>100时，值越来越小，但是变化也越来越小。所以随机样本数越多，越能摆脱某种条件的影响，而表现真实随机条件下的网络。也可以知道，在到达某个阕值后，network density的大小变化不大。

不同物种间的基因共表达比较分析

不同物种间的基因共表达关系具有robust：一个确定的module中的基因，在不同物种间具有相似的共表达关系。可以使用这种关系，进行模式物种与非模式物种之间的比较分析，将模式物种的研究优势，带动到非模式物种上。
同一个基因家族中基因倾向于分别于不同过程中基因表现出基因共表达关系。而且，不同基因家族中，成员数比较少的基因家族比成员数多的基因家族具有更多共表达关系，联系更加紧密。

基因共表达网络的后续分析

在得到基因共表达网络，并取得共表达基因后，需要进行进一步的分析，因为基因共表达只能反映RNA层面上的情况。
一般可以进一步的对基因进行注释和可视化。可以对得到的基因进行GO、KEGG分析。可以进行物种间的共表达网络比较。
还可以进行顺式元件分析。因为某些基因的共表达是由共表达基因的共同promoter中顺式元件所起作用的，所以顺式元件分析还是很重要的。

文献Aoki K, Ogata Y, Shibata D. Approaches for extracting practical information from gene co-expression networks in plant biology[J]. Plant & cell physiology. 2007;48(3):381-90.Usadel, B.Obayashi, T.Co-expression tools for plant biology: opportunities for hypothesis generation and caveats.Plant Cell Environ.2009;32(12):1633-51.