通过五个假基因特征的识别预测胶质瘤的生存及其ceRNA网络Identification of a Five-Pseudogene Signature for Predicting Survival and Its ceRNA Network in Glioma 脑胶质瘤是最常见的原发性脑肿瘤,预后不良。本研究在TCGA中确定了五个假基因并构建了风险特征,用于预测神经胶质瘤患者的生存。此外,建立了由3个假基因结合miRNA和靶基因组成的ceRNA调控网络。最后,调查了与风险特征相关的生物学功能,为神经胶质瘤的治疗提供了新的策略。 材料和方法研究数据集从HGNC下载假基因,从GlioVis GBMLGG(RNA-seq)平台下载假基因和miRNA靶基因的表达数据,以及胶质瘤患者的临床病理和TCGA中的生存数据,并使用R语言的caret包将其随机分为一个训练队列和一个验证队列。 差异表达的假基因谱Profiles主成分分析(PCA)用于评估TCGA数据库中低级神经胶质瘤(LGG)和胶质母细胞瘤(GBM)之间可用假基因的表达分布,使用R语言生成差异表达的假基因。 鉴定预后假基因特征用单变量Cox模型根据训练队列中的数据评估假基因与神经胶质瘤患者的总生存(OS)之间的关联。进行LASSO回归过滤单变量Cox分析中显著的假基因。随后,使用多元Cox回归分析通过R中的阶跃函数进一步选择假基因。根据回归系数加权的假基因表达建立风险特征,并构建风险评分公式。根据中位风险评分值将脑胶质瘤患者分为低风险和高风险组,并通过Kaplan-Meier和ROC曲线分析测量预后风险特征。为了更好地预测神经胶质瘤患者的1年,3年和5年生存率,将风险特征和一些临床病理因素结合在一起,并使用R中的rms软件包,基于多变量分析的结果,建立了列线图,ROC曲线和校准曲线用于评估列线图。 假基因-miRNA-mRNA调控网络的构建使用dreamBase数据库鉴定与假基因结合的miRNA,从miRTarBase中提取具有至少一种强实验方法(报告分析或蛋白质印迹)的miRNA靶基因。进行Pearson分析以计算假基因和miRNA靶基因之间的表达相关性,使用Cytoscape 3.5.1构建假基因-miRNA-mRNA调控网络。 生物信息学分析用靶基因在TCGA数据集中进行功能分析,通过DAVID网站进行GO和KEGG通路分析,以分析选定的靶基因,采用Metascape验证生物学过程和信号通路。统计分析两组之间的统计学差异通过Wilcoxon检验进行检验。结果确定五个假基因并将其用于构建脑胶质瘤的风险特征TCGA数据集中共包含263个假基因,纳入TCGA数据集的脑胶质瘤患者随机分为训练组和验证组(表1)。在训练队列中,GBM分布在左侧,而LGG聚集在另一侧(图1A)。在验证队列中也有相似的结果(图1B),表明LGG和GBM中假基因的分布和功能不同。在训练队列中鉴定了15个差异表达的假基因,包括GBM中的7个上调的假基因和8个下调的假基因(图1C),这15个假基因均与神经胶质瘤的预后相关。使用LASSO回归鉴定了9个假基因(图1D,E)。最后,对9个假基因进行了多元Cox回归分析,并使用“step”功能保留了5个假基因(ANXA2P2,EEF1A1P9,FER1L4,HILS1和RAET1K)(图1E),有关五种假基因的信息如表2。EEF1A1P9是保护因子,ANXA2P2,FER1L4,HILS1和RAET1K被定义为神经胶质瘤的危险因素(图1F)。表1训练队列和验证队列中样本的临床病理特征表2 dreamBase识别的五个假基因的信息 图1筛选用于构建神经胶质瘤风险特征的假基因 五个假基因作为胶质瘤的预后生物标志物如图2所示,与低表达组相比,ANXA2P2,FER1L4,HILS1或RAET1K的较高表达导致患者的预后较差(图2A–D),相反,EEF1A1P9高表达的患者预后良好(图2E),这些结果表明了这五个假基因作为神经胶质瘤患者预后生物标志物的潜在价值。图2胶质瘤中五个假基因的Kaplan-Meier生存曲线 五个假基因在胶质瘤中预后风险特征的构建KM曲线显示高风险组的预后较低风险组差(图3A),ROC曲线用于评估预测神经胶质瘤患者1年,3年和5年生存率(图3B),随着风险评分的增加,EEF1A1P9的表达水平降低,而ANXA2P2,FER1L4,HILS1和RAET1K的表达水平上调,同时,患者死亡人数增加(图3C)。 图3训练队列中五个假基因风险特征假基因风险预后的验证K-M曲线显示低危组的患者预后良好(图4A),1年,3年和5年生存的AUC分别为0.862、0.933和0.912(图4B)。与训练队列的结果一致,EEF1A1P9的表达水平被下调,而其他基因则被上调,风险评分增加,相应地,患者死亡人数增加了(图4C)。 图4验证队列中五个假基因风险特征的评估 结合风险特征和临床病理因素的Nomogram图的构建单因素和多因素Cox回归分析结果显示,五个假基因的风险特征与神经胶质瘤的总体生存率独立相关(表3)。如Nomogram图所示,可以根据总分估算1年,3年和5年生存率(图5A)。在训练队列中,1年,3年和5年生存率的AUC分别为0.917、0.95和0.881(图5B)。在验证队列中,生存的1年,3年和5年的AUC分别为0.874、0.942和0.94(图5C)。校准曲线表明,在训练队列(图5D)和验证队列(图5E)中,预测和观察值之间具有良好的相关性。这些结果表明,列线图可以准确预测神经胶质瘤患者的1年,3年和5年生存率。表3训练队列中风险特征和临床预后因素的单因素和多因素分析