研究背景:高通量芯片数据与蛋白质互作网络整合分析已经是生物信息常见的分析手段。如简单的从PPI背景网络提取目标基因连接的子网络,或者结合表达量计算基因表达上的相关性等。通过蛋白互作网络,我们可以研究目标基因可能参与的生物学功能;网络参数统计,如节点度、结束、最短路径等,以及模块划分,是得我们能够分析网络中的重要基因,这些基因既有可能对疾病的发生发展有着重要的影响。但是这些方法存在一个不足之处,我们只是从现有的信息分析,没有使用已有的疾病相关的知识,而这些先验信息可以帮助我们优化疾病相关基因的挖掘。 随机游走模型(random walk)最初被应用于图像分割,后来衍生到生物学网络分析,可以用于计算亮点之间的proximity。该模型的核心思想是从网络中某一节点(seed)出发(starting node), 沿着网络边向邻接节点游走,这种游走是随机的。从seed节点游走到某一节点的概率称为该节点与seed节点的亲和系数(affinity score), 这个值越高表示该节点与seed节点的关系越紧密。当然seed可以是一个节点,也可以是一群节点。重启随机游走模型(random walk withrestart,RWR)是即可向neigbour nodes 游走,也可跳回starting node。这里跳回starting节点的概率叫做restartprobablity,r。所以RWR模型需要三个输入,network,seed,restart probablity. 人类孟德尔遗传病数据库(Online MendelianInheritance in Man,OMIM)提供了综合、权威的关于疾病-基因的关系的数据库。我们可以根据这里提供的疾病相关的基因信息,结合芯片表达数据和蛋白质互作网络,使用RWR模型挖掘与疾病基因关系最为紧密的基因,而这些基因可能成为新的疾病相关靶点。这样子通过结合先验知识得到的新的疾病基因更有研究价值。 分析流程:1. 差异表达分析 原始芯片数据用affy包做背景校正和标准化。再根据芯片注释信息,将探针水平表达量取平均得到基因水平的表达量。接下来用R package limma 做差异表达分析,p-value用BH方法校正,差异表达的阈值为adj.P.Val<0.05 and="">0.05>≥1. 2. OMIM数据库搜索CRC gene 从OMIM数据库搜索CRCgenes, 并将这些genes作为RWR分析的seed。 3. PPI 网络构建 从STRING数据下载左右蛋白的互作网络,并从中提取只有CRC gene 和 DGGs的子网络,seed_DEGs.ppi. 4. RWR 分析 用R package dnet 的函数dRWR 做RWR分析,seed为CRC gene,网络为seed_DEGs.ppi,restart probablity 等于0.9. Drwr函数会反回一个只有一列的数值矩阵,这些数值表达是了每个基因与seed之间的affinity score。我们选取affinity score 排名前50的节点做后续功能分析和靶药预测。 结果展示: Table 1, coloreactal seed genes from OMIM database
Figure2.PPI of top50 genes Figure3. 富集分析结果 |
|
来自: 生物_医药_科研 > 《RWR重启随机游走算法》