用RWR模型从PPI网络挖掘疾病基因

生物_医药_科研 2018-12-25

展开全文

研究背景：

高通量芯片数据与蛋白质互作网络整合分析已经是生物信息常见的分析手段。如简单的从PPI背景网络提取目标基因连接的子网络，或者结合表达量计算基因表达上的相关性等。通过蛋白互作网络，我们可以研究目标基因可能参与的生物学功能；网络参数统计，如节点度、结束、最短路径等，以及模块划分，是得我们能够分析网络中的重要基因，这些基因既有可能对疾病的发生发展有着重要的影响。但是这些方法存在一个不足之处，我们只是从现有的信息分析，没有使用已有的疾病相关的知识，而这些先验信息可以帮助我们优化疾病相关基因的挖掘。

随机游走模型（random walk）最初被应用于图像分割，后来衍生到生物学网络分析，可以用于计算亮点之间的proximity。该模型的核心思想是从网络中某一节点（seed）出发(starting node), 沿着网络边向邻接节点游走，这种游走是随机的。从seed节点游走到某一节点的概率称为该节点与seed节点的亲和系数（affinity score）, 这个值越高表示该节点与seed节点的关系越紧密。当然seed可以是一个节点，也可以是一群节点。重启随机游走模型（random walk withrestart,RWR）是即可向neigbour nodes 游走，也可跳回starting node。这里跳回starting节点的概率叫做restartprobablity,r。所以RWR模型需要三个输入，network,seed,restart probablity.

人类孟德尔遗传病数据库（Online MendelianInheritance in Man，OMIM）提供了综合、权威的关于疾病-基因的关系的数据库。我们可以根据这里提供的疾病相关的基因信息，结合芯片表达数据和蛋白质互作网络，使用RWR模型挖掘与疾病基因关系最为紧密的基因，而这些基因可能成为新的疾病相关靶点。这样子通过结合先验知识得到的新的疾病基因更有研究价值。

分析流程：

1. 差异表达分析

原始芯片数据用affy包做背景校正和标准化。再根据芯片注释信息，将探针水平表达量取平均得到基因水平的表达量。接下来用R package limma 做差异表达分析，p-value用BH方法校正，差异表达的阈值为adj.P.Val<0.05 and="">≥1.

2. OMIM数据库搜索CRC gene

从OMIM数据库搜索CRCgenes, 并将这些genes作为RWR分析的seed。

3. PPI 网络构建

从STRING数据下载左右蛋白的互作网络，并从中提取只有CRC gene 和 DGGs的子网络，seed_DEGs.ppi.

4. RWR 分析

用R package dnet 的函数dRWR 做RWR分析，seed为CRC gene,网络为seed_DEGs.ppi,restart probablity 等于0.9. Drwr函数会反回一个只有一列的数值矩阵，这些数值表达是了每个基因与seed之间的affinity score。我们选取affinity score 排名前50的节点做后续功能分析和靶药预测。

结果展示：

Table 1, coloreactal seed genes from OMIM database

Gene/Locus	EntrezID	NAME
PLA2G2A	5320	phospholipase A2, group IIA (platelets, synovial fluid)
NRAS	4893	neuroblastoma RAS viral (v-ras) oncogene homolog
ODC1	4953	ornithine decarboxylase 1
CTNNB1	1499	catenin (cadherin-associated protein), beta 1, 88kDa
PIK3CA	5290	phosphatidylinositol-4,5-bisphosphate 3-kinase, catalytic subunit alpha
FGFR3	2261	fibroblast growth factor receptor 3
TLR2	7097	toll-like receptor 2
APC	324	adenomatous polyposis coli
MCC	4163	mutated in colorectal cancers
PTPN12	5782	protein tyrosine phosphatase, non-receptor type 12
PDGFRL	5157	platelet-derived growth factor receptor-like
RAD54B	25788	RAD54 homolog B (S. cerevisiae)
TLR4	7099	toll-like receptor 4
PTPRJ	5795	protein tyrosine phosphatase, receptor type, J
CCND1	595	cyclin D1
MLH3	27030	mutL homolog 3
AKT1	207	v-akt murine thymoma viral oncogene homolog 1
BUB1B	701	BUB1 mitotic checkpoint serine/threonine kinase B
TP53	7157	tumor protein p53
FLCN	201163	folliculin
AXIN2	8313	axin 2
DCC	1630	deleted in colorectal carcinoma
BAX	581	BCL2-associated X protein
AURKA	6790	aurora kinase A
EP300	2033	E1A binding protein p300