分享

用RWR模型从PPI网络挖掘疾病基因

 生物_医药_科研 2018-12-25

研究背景:

高通量芯片数据与蛋白质互作网络整合分析已经是生物信息常见的分析手段。如简单的从PPI背景网络提取目标基因连接的子网络,或者结合表达量计算基因表达上的相关性等。通过蛋白互作网络,我们可以研究目标基因可能参与的生物学功能;网络参数统计,如节点度、结束、最短路径等,以及模块划分,是得我们能够分析网络中的重要基因,这些基因既有可能对疾病的发生发展有着重要的影响。但是这些方法存在一个不足之处,我们只是从现有的信息分析,没有使用已有的疾病相关的知识,而这些先验信息可以帮助我们优化疾病相关基因的挖掘。

随机游走模型(random walk)最初被应用于图像分割,后来衍生到生物学网络分析,可以用于计算亮点之间的proximity。该模型的核心思想是从网络中某一节点(seed)出发(starting node), 沿着网络边向邻接节点游走,这种游走是随机的。从seed节点游走到某一节点的概率称为该节点与seed节点的亲和系数(affinity score, 这个值越高表示该节点与seed节点的关系越紧密。当然seed可以是一个节点,也可以是一群节点。重启随机游走模型(random walk withrestart,RWR)是即可向neigbour nodes 游走,也可跳回starting node。这里跳回starting节点的概率叫做restartprobablity,r。所以RWR模型需要三个输入,network,seed,restart probablity.

人类孟德尔遗传病数据库(Online MendelianInheritance in ManOMIM)提供了综合、权威的关于疾病-基因的关系的数据库。我们可以根据这里提供的疾病相关的基因信息,结合芯片表达数据和蛋白质互作网络,使用RWR模型挖掘与疾病基因关系最为紧密的基因,而这些基因可能成为新的疾病相关靶点。这样子通过结合先验知识得到的新的疾病基因更有研究价值。   


分析流程:

1. 差异表达分析

原始芯片数据用affy包做背景校正和标准化。再根据芯片注释信息,将探针水平表达量取平均得到基因水平的表达量。接下来用R package limma 做差异表达分析,p-valueBH方法校正,差异表达的阈值为adj.P.Val<0.05 and="">1.

2. OMIM数据库搜索CRC gene

OMIM数据库搜索CRCgenes, 并将这些genes作为RWR分析的seed

3. PPI 网络构建

STRING数据下载左右蛋白的互作网络,并从中提取只有CRC gene DGGs的子网络,seed_DEGs.ppi.

4. RWR 分析

R package dnet 的函数dRWR RWR分析,seedCRC gene,网络为seed_DEGs.ppi,restart probablity 等于0.9. Drwr函数会反回一个只有一列的数值矩阵,这些数值表达是了每个基因与seed之间的affinity score。我们选取affinity score 排名前50的节点做后续功能分析和靶药预测。


结果展示:

Table 1, coloreactal seed genes from OMIM database

Gene/Locus

EntrezID

NAME

PLA2G2A

5320

phospholipase A2, group IIA (platelets, synovial fluid)

NRAS

4893

neuroblastoma RAS viral (v-ras) oncogene homolog

ODC1

4953

ornithine decarboxylase 1

CTNNB1

1499

catenin (cadherin-associated protein), beta 1, 88kDa

PIK3CA

5290

phosphatidylinositol-4,5-bisphosphate 3-kinase,  catalytic subunit alpha

FGFR3

2261

fibroblast growth factor receptor 3

TLR2

7097

toll-like receptor 2

APC

324

adenomatous polyposis coli

MCC

4163

mutated in colorectal cancers

PTPN12

5782

protein tyrosine phosphatase, non-receptor type 12

PDGFRL

5157

platelet-derived growth factor receptor-like

RAD54B

25788

RAD54 homolog B (S. cerevisiae)

TLR4

7099

toll-like receptor 4

PTPRJ

5795

protein tyrosine phosphatase, receptor type, J

CCND1

595

cyclin D1

MLH3

27030

mutL homolog 3

AKT1

207

v-akt murine thymoma viral oncogene homolog 1

BUB1B

701

BUB1 mitotic checkpoint serine/threonine kinase B

TP53

7157

tumor protein p53

FLCN

201163

folliculin

AXIN2

8313

axin 2

DCC

1630

deleted in colorectal carcinoma

BAX

581

BCL2-associated X protein

AURKA

6790

aurora kinase A

EP300

2033

E1A binding protein p300


Figure2.PPI of top50 genes


Figure3. 富集分析结果

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多