分享

淋巴结转移相关蛋白编码基因与长非编码RNA结合预测乳腺癌患者生存情况

 阿非ycfg 2020-06-11

A lymph node metastasis-related protein-coding genes combining with long noncoding RNA signature for breast cancer survival prediction

淋巴结转移相关蛋白编码基因与长非编码RNA结合预测乳腺癌患者生存情况

发表期刊:J Cell Physiol

发表日期:2019 Nov 23

影响因子:4.52

DOI:10.1002/jcp.28600


01


前言

这篇文章去年11月份发表在J Cell Physiol上,文章的分数发了4.52分。和昨天分享的那篇肺腺癌的文章相比,文章在分析方法比较单一,但是文章中用到数据集还是很多的,作者一共用了六套数据集来构建和验证模型。

小伙伴可以模仿一下,文章中使用了单因素多因素回归分析,外加一个随机森林的方法构模型,剩余的分析很常规,大家可以拿到数据,用小工具测试一下,练习的目的也很简单,希望大家明白如何复现别人文章中的方法,照猫画虎,还有就是熟悉文章中常用图标的描述方法和这些结果图可以使用哪些图代替。

02


研究背景

在世界范围内乳腺癌(BRCA)是女性人群中常见的肿瘤之一,且发病率逐渐上升,已成为威胁女性健康的主要问题问题,尽管对BRCA早期患者进行筛查和综合治疗,但其预后仍然不容乐观。

组学层面上研究显示,BRCA是一种异质性疾病,不同患者之间有不同的分子特征、在临床上对治疗方法的反应结果不同。最近研究表明,可以根据雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)的表达,可以将BRCA分为不同的分子亚型。虽然这些分子亚型,也反映了肿瘤对激素水平的反映,可以运用于临床对患者的指导和预测患者的预后情况。但是不能准确预测每个个体生存率的预后。越来越多的研究证实基因表达可以预测BRCA个体化的预后,所以在这里作者使用BRCA患者基因表达数据,通过生物信息学法分析,筛选预后基因,并构建预测基因模型,使用基因模型将BRCA分为OS不同的两个风险组。

03


材料和方法

1.数据来源

BRCA蛋白编码基因(PCG)和长非编码RNA(lncRNA)的表达数据和相应的临床数据来自于GEO数据库、TCGA数据库和TANRIC数据库,样本的分布情况见表1.

表1 训练集与验证集样本分布表

2.建立预后模型

首先在训练集GSE20685数据集进行单因素cox回归分析识别与预后显著相关的风险基因(p<0.05),然后使用随机森林(RSFVH)算法进一步过滤了基因,最后根据下面公式构建基因模型: 

3.统计分析

log rank p值用于计算高低风险组之间的差异,Kaplan–Meier可视化两组之间的差异,使用Pearson检验构建预后基因共表达网络,并通过citoscape进行可视化,使用R程序包clusterProfiler进行GO与KEGG富集分析。

04


主要结果

1.构建PCG‐lncRNA signature

----------

作者从GEO和TCGA数据库下载了1016例满足条件的BRCA患者的基因表达数据和相应的临床表型信息,过数据预处理后,获得16979个蛋白质编码基因(PCGs)和4046个lncRNA。使用数据集GSE20685作为模型构建的训练集,数据集GSE88770和数据集GSE425680作为模型构建的验证集,探讨BRCA患者的预后signature。进一步,使用TCGA数据集、数据集GSE58812和数据集GSE21653来评估signature的预测性能。在训练集使用单因素Cox回归分析,结果显示有3242个基因(包括2829个PCGs和413个lncRNA)与BRCA患者的OS显著相关(p<0.05,图1a),然后,在使用随机森林分类算法(图1b)从与单因素显著的3242个基因中筛选出10个基因(STOML1、ADAMTS2、TFCP2、TLDC1、PROSER2、LCN15、LRRC75B、CUEDC1、PYCR1和AL355592.1)作为候选基因,用于后续分析。

10个基因通过组合可以形成1023个险模型,作者通过KM风险分析对模型进行筛选,以筛选最佳风险模型。比较这1023个模型的-log10 Plog-rank值,得到一个九基因组成风险模型Plog-rank值最优。一个最佳的应该有尽可能少的风险基因(这里小编评注,作者并没有给出筛选的条件,只是一句话),我们筛选出了包括四个PCG(LRRC75B、PROSER2、STOML1和TFCP2)和一个lncRNA(AL355592.1;图1c)的最终预后特征,并构建如下所示的风险评分:Risk score = (− 1.38 × TFCP2) + (0.59 × STOML1) + (0.38 × PROSER2) + (0.42 × LRRC75B) + (0.46 × AL355592.1).

图1 筛选候选基因和识别与预后相关的gene signature

2.基因风险模型对训练集和验证集患者生存情况的预测能力

----------

在BRCA训练集中根据所有患者风险得分的中值将患者分为高低险两组,两组患者间的生存时间存在显著差异(图2A,p<0.001)高风险患者的生存期较短,而低风险患者的生存期相对较长。在GSE88770和GSE42568测试数据集中,同样根据BRCA患者风险得分的中位数将患者分为低风险组和高风险组,低风险评分的总生存率为84.75%/78.85%,显著高于高风险评分的患者(67.24%/53.85%;图2B—C)。结合风险评分分布、生存时间和基因表达模式,在低风险评分患者中,TFCP2高表达,LRRC75B、PROSER2、STOML1、AL355592.1低表达。而在高风险患者TFCP2的表达量较低,LRRC75B、PROSER2、STOML1和AL355592.1的表达量较高(图2D-F)。

进一步,作者在TCGA和GSE58812的三阴性BRCA患者进行KM分析如图3a、b所示,从途中可以看出低风险组患者的生存期比高风险组患者长(p<0.001)。最后,使用模型对数据集GSE21653患者的DFS进行预测,图3显示高风险患者的DFS时间比低风险患者短。图3D-F显示了由风险评分分布、基因表达模式与三个验证集的患者生存时间之间的关系。结果与训练集类似,TFCP2是保护基因,而RRC75B、PROSER2、STOML1和AL355592.1是危险基因。

图2 基因风险模型对训练集和测试集患者生存情况的预测能力

图3 基因风险模型对验证集患者OS和DFS的预测能力

3.验证PCG-lncRNA signature 能够独立其他临床因素对训练集患者预后进行预测

----------

影响BRCA预后的临床因素有很多,因此,为了检测PCG-lncRNA signature 是否能够独立其他临床因素对训练集患者预后进行预测。使用GSE20685数据集携带的临床信息(包含患者的年龄、T分期、淋巴结状态以及M分期);GSE88770数据集携带的临床信息(包含ER状态、PR状态、Her2状态和Grade);GSE42568数据集携带的临床信息(包含年龄和淋巴结状态),三个数据集的临床因素进行了Cox分析。结果显示,在这三个数据集中,PCG-lncRNA signature的多因素Cox比例风险结果为p<0.05,说明PCG-lncRNA signature 相对于其他临床因素,可作为一个独立的预后因子(表2)。此外, 通过表格,作者还发现淋巴结状态也可以作为一个独立的预后因子。

表2 基因风险模型与其他临床因素的关系

4.PCG-lncRNA signature与其他临床因素的相关性

----------

通过前面的分析,作者发现淋巴结状态和PCG-lncRNA signature都可作为乳腺癌患者的预后标志物,所以,作者使用卡方检验分析基因预后模型与其他临床因素的相关性,结果发现数据集GSE20685和数据集GSE42568组的淋巴结状态(N期)与基因风险模型存在相关性(p<0.05)。然后,作者将数据集GSE20685和GSE42568具有淋巴结状态的患者进行整合,进一步测试基因风险模型能否将淋巴结转移患者划分为高低风险两组。结果显示,在431例BRCA患者中,249例患者淋巴结发生了转移,182例患者淋巴结没有发现转移。分别使用基因风险模型对淋巴结转移患者和没有转移患者进行了预后分析,发现基因风险模型能分别将淋巴结转移患者和没有转移患者分为高低风险两组,两组患者的生存时间存在显著差异(图4A-B,p<0.001)。

进一步,作者使用ROC分析,来评估基因风险模型对淋巴结状态(N期)患者的预测能力,结果显示:在431个BRCA数据集中,PCG-lncRNA signature的AUC(0.69,95%CI:0.64~0.73)与淋巴结状态的AUC(0.66,95%CI:0.62~0.71)相似,并且signature和N期的组合具有更大的AUC(图4c)。最后,作者使用TimeROC分析分析了基因风险模型对患者1年、3年、5年、10年生存情况是否有预测能力(图4D)。

图4 基因风险模型对淋巴结转移患者(N期)生存状态的预测情况

5.预后基因功能分析

----------

在训练集中,作者使用Pearson相关分析获得了2701个PCGs和 PCGs-lncRNA signature共表达,然后使用Cytoscape对网络进行了可视化(coefficient>0.20或<−0.2, p<0.001,图5A)。然后,作者对风险模型中的4个PCGs和1个lncRNA进行GO与KEGG分析,结果显示,这些基因参与了T细胞活化、白细胞与细胞粘附、T细胞白血病病毒1感染、趋化因子信号通路等免疫相关途径,这表明模型中的预测基因可能参与免疫相关途径(图5B-C)。

图5 共表达网络分析

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多