分享

胶质瘤假基因ceRNA网络构建3 思路分享

 生物_医药_科研 2019-10-24
通过五个假基因特征的识别预测胶质瘤的生存及其ceRNA网络
Identification of a Five-Pseudogene Signature for Predicting Survival and Its ceRNA Network in Glioma

脑胶质瘤是最常见的原发性脑肿瘤,预后不良。本研究在TCGA中确定了五个假基因并构建了风险特征,用于预测神经胶质瘤患者的生存。此外,建立了由3个假基因结合miRNA和靶基因组成的ceRNA调控网络。
最后,调查了与风险特征相关的生物学功能,为神经胶质瘤的治疗提供了新的策略。

材料和方法
研究数据集
从HGNC下载假基因,从GlioVis GBMLGG(RNA-seq)平台下载假基因和miRNA靶基因的表达数据,以及胶质瘤患者的临床病理和TCGA中的生存数据,并使用R语言的caret包将其随机分为一个训练队列和一个验证队列。

差异表达的假基因谱
Profiles主成分分析(PCA)用于评估TCGA数据库中低级神经胶质瘤(LGG)和胶质母细胞瘤(GBM)之间可用假基因的表达分布,使用R语言生成差异表达的假基因。

鉴定预后假基因特征
用单变量Cox模型根据训练队列中的数据评估假基因与神经胶质瘤患者的总生存(OS)之间的关联。进行LASSO回归过滤单变量Cox分析中显著的假基因。随后,使用多元Cox回归分析通过R中的阶跃函数进一步选择假基因。根据回归系数加权的假基因表达建立风险特征,并构建风险评分公式。根据中位风险评分值将脑胶质瘤患者分为低风险和高风险组,并通过Kaplan-Meier和ROC曲线分析测量预后风险特征。为了更好地预测神经胶质瘤患者的1年,3年和5年生存率,将风险特征和一些临床病理因素结合在一起,并使用R中的rms软件包,基于多变量分析的结果,建立了列线图,ROC曲线和校准曲线用于评估列线图。

假基因-miRNA-mRNA调控网络的构建
使用dreamBase数据库鉴定与假基因结合的miRNA,从miRTarBase中提取具有至少一种强实验方法(报告分析或蛋白质印迹)的miRNA靶基因。进行Pearson分析以计算假基因和miRNA靶基因之间的表达相关性,使用Cytoscape 3.5.1构建假基因-miRNA-mRNA调控网络。

生物信息学分析
用靶基因在TCGA数据集中进行功能分析,通过DAVID网站进行GO和KEGG通路分析,以分析选定的靶基因,采用Metascape验证生物学过程和信号通路。
统计分析
两组之间的统计学差异通过Wilcoxon检验进行检验。
结果
确定五个假基因并将其用于构建脑胶质瘤的风险特征
TCGA数据集中共包含263个假基因,纳入TCGA数据集的脑胶质瘤患者随机分为训练组和验证组(表1)。在训练队列中,GBM分布在左侧,而LGG聚集在另一侧(图1A)。在验证队列中也有相似的结果(图1B),表明LGG和GBM中假基因的分布和功能不同。在训练队列中鉴定了15个差异表达的假基因,包括GBM中的7个上调的假基因和8个下调的假基因(图1C),这15个假基因均与神经胶质瘤的预后相关。使用LASSO回归鉴定了9个假基因(图1D,E)。最后,对9个假基因进行了多元Cox回归分析,并使用“step”功能保留了5个假基因(ANXA2P2,EEF1A1P9,FER1L4,HILS1和RAET1K)(图1E),有关五种假基因的信息如表2。EEF1A1P9是保护因子,ANXA2P2,FER1L4,HILS1和RAET1K被定义为神经胶质瘤的危险因素(图1F)。
表1训练队列和验证队列中样本的临床病理特征

表2 dreamBase识别的五个假基因的信息
 


图1筛选用于构建神经胶质瘤风险特征的假基因
 



五个假基因作为胶质瘤的预后生物标志物
如图2所示,与低表达组相比,ANXA2P2,FER1L4,HILS1或RAET1K的较高表达导致患者的预后较差(图2A–D),相反,EEF1A1P9高表达的患者预后良好(图2E),这些结果表明了这五个假基因作为神经胶质瘤患者预后生物标志物的潜在价值。
 
图2胶质瘤中五个假基因的Kaplan-Meier生存曲线


五个假基因在胶质瘤中预后风险特征的构建
KM曲线显示高风险组的预后较低风险组差(图3A),ROC曲线用于评估预测神经胶质瘤患者1年,3年和5年生存率(图3B),随着风险评分的增加,EEF1A1P9的表达水平降低,而ANXA2P2,FER1L4,HILS1和RAET1K的表达水平上调,同时,患者死亡人数增加(图3C)。
 图3训练队列中五个假基因风险特征

假基因风险预后的验证
K-M曲线显示低危组的患者预后良好(图4A),1年,3年和5年生存的AUC分别为0.862、0.933和0.912(图4B)。与训练队列的结果一致,EEF1A1P9的表达水平被下调,而其他基因则被上调,风险评分增加,相应地,患者死亡人数增加了(图4C)。
 图4验证队列中五个假基因风险特征的评估


结合风险特征和临床病理因素的Nomogram图的构建
单因素和多因素Cox回归分析结果显示,五个假基因的风险特征与神经胶质瘤的总体生存率独立相关(表3)。如Nomogram图所示,可以根据总分估算1年,3年和5年生存率(图5A)。在训练队列中,1年,3年和5年生存率的AUC分别为0.917、0.95和0.881(图5B)。在验证队列中,生存的1年,3年和5年的AUC分别为0.874、0.942和0.94(图5C)。校准曲线表明,在训练队列(图5D)和验证队列(图5E)中,预测和观察值之间具有良好的相关性。这些结果表明,列线图可以准确预测神经胶质瘤患者的1年,3年和5年生存率。
表3训练队列中风险特征和临床预后因素的单因素和多因素分析

图5线型图预测神经胶质瘤患者的生存率

 
胶质瘤的风险特征与临床病理特征之间的关联
为了探讨风险特征与临床病理特征之间的关系,调查了按神经胶质瘤等级,年龄,IDH状态和MGMT启动子状态分层的不同队列的风险评分水平。在不同级别中,GBM(WHO IV级)的风险评分高于LGG(图6A)。年龄大于60岁的患者的风险得分远高于年龄小于或等于60岁的患者(图6B)。对于IDH状态,与野生型IDH的患者相比,IDH突变的患者的风险得分降低(图6C)。具有甲基化MGMT启动子的患者的风险评分低于没有MGMT启动子甲基化的患者(图6D)。Kaplan-Meier曲线显示LGG中高风险评分患者的预后较低风险评分低(图6E)。尽管GBM中高风险组和低风险组之间无统计学差异,两条曲线的趋势很明显(图6F)。对于按年龄分层的组,无论是≤60岁年龄组(图6G)还是年龄≥60岁组,低风险评分患者的生存时间均比高风险评分患者更长(图6H)。
 
图6风险信号与分层的不同队列之间的关联

假基因-miRNA-mRNA调控网络
使用三个假基因(ANXA2P2,EEF1A1P9和FER1L4)以及72个microRNA和322个靶向基因来构建假基因-miRNA-mRNA调控网络(图7)。ANXA2P2与与神经胶质瘤增殖,侵袭和血管生成相关的基因正相关(图8A)。FER1L4与SNAIL1,IGF2BP1和HOXA5正相关(图8B)。相反,EEF1A1P9与CD44,IL6,MMP9,MMP14,VEGFA,NEK2和PCNA呈负相关,但与PTEN呈正相关(图8C)。这些结果表明这三种假基因可能在神经胶质瘤的发生和发展中起重要作用。
 
图7假基因-miRNA-mRNA调控网络的构建

图8胶质瘤中与假基因(ANXA2P2,FER1L4和EEF1A1P9)相关的基因


假基因风险特征的功能分析
通过DAVID进行GO和KEGG通路分析,发现特征与与肿瘤凋亡,增殖,迁移和血管生成有关的生物学过程在功能上相关(图9A)。相应地,鉴定了几种KEGG通路(图9B)。为了进一步证实这些结果,对相关基因进行了Metascape(图9C)。这些结果表明,风险特征与神经胶质瘤的增殖,迁移,血管生成和凋亡的功能有关。

图9六个假基因风险特征的功能

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多