分享

做完mRNA又接着非编码RNA做预后模型

 科研菌 2020-12-17

Identification of a nomogram based on long non-coding RNA to improve prognosis prediction of esophageal squamous cell carcinoma
基于lncRNA的食管鳞癌患者预后预测列线图的建立

一、背景介绍

 食管癌(EC)是主要的恶性肿瘤之一,东亚地区90%食管癌为食管鳞癌(ESCC)。由于进展快且对化疗不敏感,病人预后较差。越来越多证据表明lncRNA可能是ESCC的一种生物标志物,部分lncRNA在ESCC中发挥原癌基因作用。

二、流程图

三、结果分析

1.使用“edgeR”与“DEseq”R包进行差异表达的lincRNAs(DELs)鉴定

作者使用R包“edgeR”与“DEseq”对肿瘤组织与周边正常组织lincRNAs表达进行对比,共鉴定了502个 表达差异的lincRNAs ,223个高表达, 279个低表达。

图1.差异表达的lincRNAs(DELs)鉴定
2.8个lincRNA标志物的确立与验证

对DELs进行单因素归分析,使用LASSO分析找到了33个可用于OS预测的lncRNA。最终确定了8个lincRNA用于ESCC风险预测。

表1.8个独立预后标志物基因

使用R包 “glment”, “survminer” and “survival”进行多元cox回归分析,确定8个lincRNA的相关系数,其中LINC01711对评分贡献最大,LINC01592贡献最小。依据 8个标志物的表达水平对病人进行风险评分,将病人化分为高低风险两组,对比两组生存时间与标志物表达。

风险评分 = 18.977 × (expression level of AP000487) + 11.606 × (expression level of AC011997) + 0.023 × (expression level of LINC01592) + 3.658 × (expression level of LINC01497) 24.196 × (expression level of LINC01711) + 3.164 × (expression level of FENDRR) + 0.228 × (expression level of AC087045) + 10.548 × (expression level of AC137770)

2A: 8个标志物的确立过程。

2B/C:GEO和 TCGA数据集中, 预后标志物与OS间关系。由上至下依次为病人的风险评分,生存时间,8个lincRNA 表达。低风险组病人生存时间较长。

图2.8个lincRNA预后标志物的确立与验证

对高低风险组进行生存,判断使用8个lincRNA标志物进行风险评分的OS预测效果,低风险组病人OS显著优于高风险组(3A/B)。为验证8个标志物的OS预测真实性,作者使用 R 包 “survivalROC“做OS预测的ROC曲线,0.5-, 1-, 3-,  5-year AUC在GEO和 TCGA数据集中分别为0.673, 0.734, 0.798, 0.816, 0.795 和 0.777, 0.644, 0.642, 0.649, 0.765 ,表明8个标志物的OS预测效果较好,准确度高(3C/D)。

图3.8个标志物KM生存分析与ROC曲线
3.不同亚组下标志物作用验证

依据标志物表达进行的风险评分在不同年龄,分期,分级的病人中,均可作为预测OS的生物标志物,高低风险组病人生存时间有显著差异。

图4.不同临床指标下标志物作用证明
4.OS相关临床指标单因素与多元cox回归分析

对OS相关临床指标进行单因素cox回归分析,TCGA数据集中的grade, stage, N stage和risk score , GEO数据集中的 stage, risk score可作为OS的预测指标(5A,5C)。为验证各个因素的独立性,进一步对相关指标进行多元cox回归分析,结果表明TCGA数据集age,risk score, GEO数据集中的stage,risk score可以作为独立的风险因素(5B,5D),综合证明标志物可作为ESCC独立的预后风险因素。

图5.OS相关临床指标单因素与多元cox回归分析
5.建立列线图

结合病人年龄,肿瘤分级,分期以及8个标志物的表达,建立列线图(6A),做出校准曲线及KM生存曲线,观察列线图的预测效果。校准曲线与表示实际生存概率的45º斜线偏差较小(6B),表明列线图的预测准确度较高。且KM生存曲线中,综合所有临床指标进行预测的曲线AUC高于单一使用肿瘤分级,分期与病人年龄进行预测的曲线AUC,表明与单一因素相比,各临床指标与标志物表达相结合的列线图有更高的预测准确度(6C)。

图6.ESCC中OS预测列线图建立
6.WGCNA分析

作者使用R 包“WGCNA”进行WGCNA分析,以相关系数>0.6,P<0.001为标准,筛选标志物lincRNA共表达基因,然后筛选出其中的差异表达基因(7A)。设置β = 5,使用平均连接聚类法,相似基因被分在不同模块(7C)。作者计算出各模块基因总表达水平,并按照模块因间的关联将其再分为8个模块(7D),进一步分析基因与临床因素间的关系。

作者对各模块基因与生存时间之间的关联进行分析。计算各个模块生存时间相关基因的显著性与标准差,以此估算生存时间与基因表达间的关系(8A),做出模块主成分散点图,绿色模块与生存时间关联最强,棕色模块与生存时间负相关,蓝色和红色模块与生存时间正相关(8B)。然后对8个模块进行GO功能富集分析与KEGG通路富集分析。GO功能富集分析包括生物过程,细胞组成与分子功能三部分。主要影响的生物过程为角质形成细胞分化,肽链交联,表皮细胞分化;主要影响的生物功能为多肽酶活性,L-氨基酸多肽链活动,肽链内切酶抑制剂活性;主要影响的细胞成分为中间丝细胞骨架,角蛋白丝。KEGG通路富集分析显示8个模块的基因与甲型流感,化学致癌和药物代谢有关(8C)。

  同样,作者对各个模块基因与T分期间关系进行分析。计算各个模块T分期相关基因的显著性与标准差,以此估算生存时间与基因表达间的关系(9A),做出模块主成分散点图,黑色模块与T分期关联最强,蓝色模块与T分期负相关,绿色模块与T分期正相关(9B)。然后对8个模块进行GO功能富集分析与KEGG通路富集分析。主要影响的生物过程为细胞外基质组成;主要影响的生物功能为金属肽酶活性, 金属内肽酶活性,胶原结合;主要影响的细胞成分为内质网。KEGG通路富集分析显示8个模块的基因与蛋白质的降解利用有关(9C)。

7B:软阈值选择。β = 5为最佳软阈值,基因分布符合无尺度网络。

7F:分级聚类与关键基因网络热图。8个模块被归为两类,热图展示了模块间的相关性。

图7.WGCNA分析

图8.各模块基因与生存时间关系

图9.各模块基因与T分期关系

小结

   作者通过对GEO,TCGA数据集的分析,确立了8个可作为ESCC预后标志物的lincRNA,结合其他预后相关临床指标建立列线图,用于ESCC病人预后预测,生存预测效果优于传统分级系统。同时为研究相关分子机制,作者通过WGCNA分析,将8个lincRNAs标志物相关基因分为不同模块,并对模块相关功能进行分析。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多