分享

11+单基因泛癌,转录组+单细胞+机器学习+预后模型,多套路教你打造高分SCI文章!!

 智汇基因 2023-09-18 发布于广东

导语

今天给同学们分享一篇单基因泛癌+多实验的生信文章“A transcriptomic pan-cancer signature for survival prognostication and prediction of immunotherapy response based on endothelial senescence”,这篇文章于2023年3月28日发表在J Biomed Sci期刊上,影响因子为11。

微血管内皮本质上控制着恶性肿瘤的营养输送、氧气供应和免疫监视,因此既是癌症的生物学先决条件,也是治疗的薄弱环节。最近,细胞衰老成为实体恶性肿瘤的一个基本特征。特别是,有报道称肿瘤内皮细胞获得了衰老相关的分泌表型,其特征是促炎症转录程序,最终促进肿瘤生长和远处转移的形成。因此,作者假设肿瘤内皮细胞(TEC)的衰老是精准肿瘤学中生存预后和免疫疗法疗效预测的一个有希望的靶点。

1. 肿瘤环境中单个细胞群的衰老状态

在本研究中,作者假设 TEC 中与衰老相关的转录组变化是癌症生存预后和免疫疗法反应预测的潜在靶点。为了证明这一假设,作者使用了五个已发表的不同癌症实体的单细胞核糖核酸测序(scRNAseq)数据集,包括肺癌、肝癌、结直肠癌、前列腺癌和膀胱癌。作为细胞衰老的衡量标准,作者使用了已建立的衰老相关基因集(FRIDMAN.SENESCENCE.UP)。首先,作者提取并聚类了所有数据集中的高质量细胞,如统一流形近似和投影(UMAP)图所示(图1a-e)。随后基于 FRIDMAN.SENESCENCE.UP 对这些细胞进行的基因组变异分析(GSVA)显示,除了癌相关成纤维细胞(CAF;图1a-e)外,TEC 的 GSVA 得分高于肿瘤细胞或肿瘤环境中的其他细胞群,包括髓系细胞、T 细胞和 B 细胞。因此,在恶性肿瘤的血管区,TEC 表现出最高的细胞衰老水平。

图1 评估肿瘤环境中单个细胞类型的衰老状态

衰老细胞的表型特征与分泌生物活性物质有关,这种物质能够调节不同细胞的活化状态。为了进一步探索衰老 TEC 与肿瘤环境中其他细胞群之间的整体交流,作者根据 FRIDMAN.SENESCENCE.UP 的 GSVA 评分中值,将 TEC 分成高衰老细胞(HS-TEC)和低衰老细胞(LS-TEC)。在含有大量内皮细胞的三个 scRNAseq 数据集(E-MTAB-6149,肺癌)、(GSE125449,肝癌)和(GSE195832,头颈癌)中,作者根据 FRIDMAN.SENESCENCE.UP 的 GSVA 评分中值将 TEC 划分为高衰期细胞(HS-TEC)和低衰期细胞(LS-TEC)。作为细胞间相互作用的衡量标准,作者通过网络分析和模式识别方法评估了 HS-TEC 的通讯网络。在这里,作者证明与 LS-TECs 相比,HS-TEC 在肿瘤微环境中建立了更多的相互作用,主要是与免疫细胞进行交流。为此,HS-TEC 释放细胞因子巨噬细胞迁移抑制因子(MIF)和 β-半乳糖苷结合凝集素(galectin),利用这些细胞因子和凝集素与免疫细胞沟通,利用五种途径,包括 MIF-CD74/C-X-C motif 趋化因子受体 4(MIF-CD74 + CXCR4)、MIF-CD74/CD44(MIF-CD74 + CD44)、Galectin9-TIM3(LGALS9-HAVCR2)、Galectin9-CD45(LGALS9-CD45)和 Galectin9-CD44(LGALS9-CD44)。因此,作者的数据表明,TEC 的衰老特别有利于通过 MIF 和 Galectin 依赖性途径与免疫细胞相互作用。

2. 基于内皮衰老的泛癌转录组特征的开发

下一步,作者的目标是生成一个专门反映衰老 TEC 特征的泛癌症基因特征(简称 EC.SENESCENCE.SIG)。为此,作者使用了包含 15 个癌症实体的 18 个 scRNAseq 数据集,对 TEC 的基因表达水平和 GSVA 评分(基于 FRIDMAN.SENESCENCE.UP)进行了斯皮尔曼相关性分析。在这 18 个数据集中,与 TEC 中 GSVA 分数呈正相关的基因(Spearman R > 0 且 FDR < 0.05)被视为 "Gx",代表衰老相关基因。在内皮细胞中上调的基因(logFC ≥ 0.25 和 FDR < 0.05)被视为 "Gy",代表特定的内皮细胞基因。为了获得特定的内皮细胞衰老调控基因,每个数据集的 "Gx "和 "Gy "相交生成 "Gn"(n = 1-18)(图 2A)。G1-G18 代表 18 个 scRNA-Seq 数据集中各自的 Gx 和 Gy 的交集。随后,计算 "G1 "至 "G18 "每个基因的斯皮尔曼相关系数的几何平均数。最后,只有斯皮尔曼相关系数几何平均值高于 0.2 的基因才会被筛选到 EC.SENESCENCE.SIG 中,该数据集最终包含 102 个基因。为了确定 EC.SENESCENCE.SIG 的功能类别,作者使用了 R 软件包 "clusterProfiler "中的两种基因注释工具,即基因本体(GO)术语和反应组通路数据库。作者发现,EC.SENESCENCE.SIG 主要富集了与细胞粘附和相互作用相关通路的基因,如 "整合素细胞表面相互作用"、"层粘连蛋白相互作用"、"细胞底物粘附"、"粘连接头 "和 "整合素结合"(图2B),这与之前报道的衰老内皮细胞粘附性增强以及 HS-TEC 与其他非恶性细胞的细胞间通讯增强相一致。

图2 通过泛癌症 scRNAseq 分析建立肿瘤内皮细胞特异性衰老相关转录组特征

3. 利用 EC.SENESCENCE.SIG 对信号通路、免疫细胞反应和患者存活率进行泛癌预后分析

为了进一步探索EC.SENESCENCE.SIG在不同癌症实体中的生物学特征,作者对EC.SENESCENCE.SIG应用GSVA方法计算了癌症基因组图谱(TCGA)中33种癌症实体中每位患者的转录组特征得分。总体而言,作者的分析结果表明,肾透明细胞癌(KIRC)、胰腺癌(PAAD)或甲状腺癌(THCA)等实体恶性肿瘤的 EC.SENESCENCE.SIG 得分较高,而大 B 细胞淋巴瘤(DLBC)或急性髓系白血病(LAML)等血液恶性肿瘤的得分较低。根据 EC.SENESCENCE.SIG,将 TCGA 泛癌症队列中的患者细分为 GSVA 高分和低分(中位值),通过基因组富集分析(GSEA)探讨了每种癌症类型中先前报道的肿瘤促进通路的富集情况。作者的结果表明,在所有癌症类型中,几乎所有基于 EC.SENESCENCE.SIG 的 GSVA 高分的恶性肿瘤中都富集了所分析的促肿瘤信号通路(图3a)。

图3 EC.SENESCENCE.SIG的泛癌症分析

接下来,作者评估了基于 EC.SENESCENCE.SIG 的 GSVA 评分与 TCGA 队列中患者生存率之间的关系。作者发现,在包括胰腺癌(PAAD)、肺鳞癌(LUSC)、胃癌(STAD)和肾乳头状细胞癌(KIRP)在内的十多种癌症类型中,高 GSVA 评分与总生存期(OS)受损显著相关。只有在甲状腺癌(THCA)中,高GSVA评分的患者的OS较低GSVA评分的患者有所改善。此外,11种癌症的高GSVA评分与较短的无进展生存期(PFS)相关,而只有肾癌(KIRC)的高GSVA评分与较长的无进展生存期相关(图3b)。最后,作者使用 Cibersort [ 17] 评估了 GSVA 评分(基于 EC.SENESCENCE.SIG)与 TCGA 队列中不同癌症类型的 22 个免疫细胞亚群浸润的相关性。作者发现,高 GSVA 分数与免疫细胞对肿瘤浸润的明显改变有关。特别是,几乎所有癌症类型的 GSVA 评分都与(促致癌的)M2 巨噬细胞的肿瘤浸润呈正相关,而与(抗肿瘤的)CD8 + T 细胞的肿瘤浸润呈负相关(图 3c)。总之,作者建立了一种内皮特异性衰老相关转录组特征,可作为促肿瘤细胞信号传导、肿瘤促进免疫细胞反应失衡和患者生存受损的泛癌症预后指标。

4. 利用 EC.SENESCENCE.SIG 预测抗 PD-L1/PD-1 或抗 CTLA-4 免疫检查点阻断反应

关于EC.SENESCENCE.SIG GSVA高分与肿瘤促进免疫细胞浸润失衡之间的相关性,作者进一步假设,这一转录组特征也提供了预测抗PD-L1/PD-1或抗CTLA-4免疫检查点抑制剂疗法反应的可能性。肿瘤突变负荷(TMB)先前已被确定为抗-PD-L1/PD-1免疫疗法反应的一个强有力的泛癌症预测指标。因此,作者首先评估了 TCGA 队列中 EC.SENESCENCE.SIG 与 TMB 之间的相关性。在这里,作者发现在大多数癌症类型(BRCA、HNSC、CESC、LIHC、STAD、MESO、LUSC、KIRP、LUAD、UVM、PRAD、UCEC 和 SKCM;图 4a)中,TMB 与 EC.SENESCENCE.SIG 呈负相关,这强烈表明该转录组特征可以预测免疫治疗反应。因此,作者在三个有免疫治疗临床结果报告的批量 RNAseq 数据集中使用 GSVA 和 GSEA 研究了 EC.SENESCENCE.SIG 在免疫治疗应答和应答患者中的富集情况。在这里,作者发现免疫治疗耐药患者的 GSVA 得分高于免疫治疗应答患者。与这些结果一致的是,在 GSEA 分析中,EC.SENESCENCE.SIG 在抗 PD-L1/PD-1 或抗 CTLA-4 免疫疗法耐药患者中显著富集。

图4 利用EC.SENESCENCE.SIG预测抗PD-L1/PD-1免疫疗法的疗效

除了对批量 RNAseq 数据进行上述分析外,作者还探讨了两个免疫疗法 scRNAseq 数据集中内皮细胞的 GSVA 评分(EC.SENESCENCE.SIG),这两个数据集包括肾癌(PRJNA705464)和基底细胞癌(GSE123813)患者。与作者之前的研究结果一致,免疫治疗耐药患者的内皮细胞显示出 EC.SENESCENCE.SIG 基因的富集(图 4b,c)。

此外,作者还采用了13个包含抗PD-L1/PD-1或抗CTLA-4免疫疗法结果的批量RNAseq数据集,其中只选择了治疗无效的患者进行进一步分析。在这 13 个队列中,7 个队列(n = 775,80% 用于训练集,20% 用于验证集)被合并为一个训练队列,而其他 6 个队列则用于测试最终建立的模型的预测能力(图 4d)。为此,作者使用了十种不同的机器学习算法,并通过五次重复的十倍交叉验证来优化每个模型的参数。随后,作者估算了这些模型在验证队列中的曲线下面积(AUC)值。经过这些数学计算,作者最终选择了 AUC 值最高的 "KKNN "机器学习算法模型,其 AUC 值为 0.72(图 4e、f)。作者在六个外部队列中测试了该 EC.SENESCENCE.SIG 模型的预测准确性,结果显示这些队列中的 AUC 值从 0.66 到 0.79 不等。

为了估算EC.SENESCENCE.SIG依赖性免疫疗法反应预测的总体价值,作者将该转录组特征的性能与之前建立的抗PD-L1/PD-1或抗CTLA-4免疫疗法反应预测泛癌症模型进行了比较,包括NLRP3.Sig、INFG.Sig、PDL1.Sig、T.cell.inflamed.Sig、Cytotoxic.Sig和LRRC15.CAF.Sig。这些泛癌症预测模型大多只在单一数据集中表现良好,而 EC.SENESCENCE.SIG 在涵盖 SKCM、GBM、UC、GC 和 NSCLC 等五种癌症类型的所有队列中都表现良好(图 4g,h)。具体而言,T.cell.inflamed.Sig 和 INFG.Sig 的 AUC 水平在 Kim 2018 年的 GC 和 PUCH 2021 年的 SKCM 中约为 0.8,但在 Zhao 2019 年的 GBM 和 Snyder 2017 年的 UC 中则降至 0.5 左右。NLRP3.Sig 在 Zhao 2019 GBM、Jung 2019 NSCLC 和 Auslander 2018 SKCM 中表现良好,而在其他三个队列中表现较差。细胞毒性.Sig的AUC在Kim 2018 GC中为0.71,在PUCH 2021 SKCM中为0.75,但在Zhao 2019 GBM和Snyder 2017 UC中下降到0.54-0.58。PDL1.Sig 的 AUC 在 Kim 2018 GC 和 Jung 2019 NSCLC 中分别达到 0.77 和 0.76,但在其他四个队列中则下降到 0.45-0.57。LRRC15.CAF.Sig在所有六个队列中都显示出有限的预测能力。与之前发表的这些结果不同,EC.SENESCENCE.SIG 在所有队列中均表现良好,在所有六个队列中的 AUC 均超过 0.66,其中包括五种不同类型的实体癌(胶质母细胞瘤、黑色素瘤、尿路上皮癌、胃癌和肺癌)。作者的研究结果表明,EC.SENESCENCE.SIG 也是一种可靠的抗 PD-L1/PD1 或抗 CTLA-4 免疫疗法反应的泛癌症预测模型。

5. 构建并验证与 "EC.SENESCENCE.SIG "相关的泛癌预后模型

为了优化EC.SENESCENCE.SIG在泛癌症生存预后中的应用,作者利用这一转录组特征生成了一个LASSO惩罚性Cox比例危险度回归(LASSO-Cox)模型。首先,作者将 EC.SENESCENCE.SIG 的 102 个基因纳入 LASSO 分析,并在泛癌症 TCGA 队列中进行了十倍交叉验证,然后确定了 50 个系数不为零的基因用于进一步分析。然后,作者利用这 50 个基因,在 TCGA 泛癌症训练集中使用逐步参数选择法建立了一个 Cox 比例危险度回归模型。随后,根据这 37 个基因的 Cox 系数和归一化表达水平为每位患者制定了风险评分。最后,作者根据风险评分的中位值将 TCGA 训练测试集中的患者分为两组。在这里,作者发现两组中风险评分较高的患者总生存率较低(图5a、b)。相应地,临床分期较高的患者风险评分也明显较高(图5c)。作者随后计算了EC.SENESCENCE.SIG相关风险评分与几种选定的肿瘤促进信号通路的GSVA评分之间的相关系数。有趣的是,在 TCGA 队列的所有癌症类型中,作者的风险评分与所有这些通路的 GSVA 评分都呈正相关(图5d)。

图5 TCGA 中 EC.SENESCENCE.SIG 相关泛癌症模型的预后性能

作者还观察到,EC.SENESCENCE.SIG 相关风险评分对其他各种癌症类型的总生存率具有很强的预后能力,包括 BRCA(对数秩检验:P = 0.00064)、宫颈癌(CESC,对数秩检验:P < 0.0001)、HNSC(对数秩检验:P < 0.0001)、KIRC(对数秩检验:P < 0.0001)、LIHC(对数秩检验:P = 0.0024)和 PAAD(对数秩检验:P = 0.00092;图 5e-j)。为了进一步证实该风险评分的预后价值,作者在几个外部验证队列中使用相同的公式计算了风险评分。在这些数据集中,这些与 EC.SENESCENCE.SIG 相关的风险评分在预测患者生存率方面也显示出良好的性能(图 6a-i),这表明作者的风险评分在各种癌症中都是可靠的预后指标。

图6 EC.SENESCENCE.SIG相关泛癌症模型在外部队列中的预后表现

6. 建立基于EC.SENSENCE.SIG相关风险评分的泛癌生存率临床预测列线图

为了进一步加强上述风险评分的预后能力,作者在TCGA泛癌症队列中结合临床疾病分期和EC.SENESCENCE.SIG相关风险评分生成了一个提名图评分(图7a)。癌症确诊后前五年的疾病特异性生存率(DSS)校准曲线显示,预后生存概率与实际生存率高度一致,表明该提名图在生存预后方面的稳健性(图 7b)。此外,描述提名图得分对 TCGA 泛癌症队列总生存率影响的单变量 Cox 分析表明,提名图得分与大多数癌症类型的生存率下降有关(图 7c)。重要的是,在 TCGA 训练集和测试队列中,提名图评分预测的随时间变化的 AUC 均优于 EC.SENESCENCE.SIG 相关风险评分(图7d)。此外,在不同癌症实体的外部验证数据集中,该提名图评分也表现出了良好的预后性能(图 7e)。最后,作者进行了预后荟萃分析,研究这十个训练集和验证集的综合预后价值。在这里,提名图评分是癌症患者总生存率的一个重要风险因素(综合 HR = 2.61,P < 0.001;图 7f)。

图7 EC.SENESCENCE.SIG衍生的提名图特征在预测泛癌症预后方面的效果评估

7. EC.SENESCENCE.SIG衍生的提名图特征在预测泛癌症预后方面的效果评估

为了促进EC.SENESCENCE.SIG在生存预后评估中的临床应用,作者使用了三种基于机器学习的算法,包括随机森林、极端梯度提升(XGBoost)和LASSO特征选择,从EC.SENESCENCE.SIG的所有基因中筛选出最重要的特征。为了对 TCGA 泛癌症队列中的总生存期进行预后分析,作者用 LASSO 方法确定了 50 个基因,用随机森林方法确定了 9 个基因,用 XGBoost 方法确定了 9 个基因。随后,作者进行了交叉分析,得到了三个共同基因,包括整合素亚基α5(ITGA5)、转谷氨酰胺酶2(TGM2)和筋膜肌动蛋白捆绑蛋白1(FSCN1)。接下来,作者分析了 TCGA 队列中二十种癌症类型的肿瘤和正常组织中这三个基因的差异表达。在这些基因中,与正常组织相比,FSCN1 在所有癌症类型中均上调,而 ITGA5 和 TGM2 仅在 70% 的肿瘤中上调。最后,作者重点研究了这三个基因与 33 种癌症类型患者生存预后之间的关联。在这里,作者发现 FSCN1 和 ITGA5 的高表达与十多种癌症的生存受损有关,而 TGM2 的高表达也与五种以上癌症的不良预后有关。总之,作者的研究结果表明,EC.SENESCENCE.SIG 的这三个枢纽基因可作为预后泛癌症生物标志物。

总结

总之,作者的研究为了解恶性肿瘤血管中与细胞衰老相关的各种分子和细胞过程提供了新的视角。从转化的角度来看,本研究中建立的内皮细胞相关、衰老相关的泛癌症基因特征 EC.SENESCENCE.SIG 可能有利于精准肿瘤学中的生存预后和免疫疗法反应预测。






    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多