分享

6+单细胞+多组机器学习,搭配热点基因集已成大热趋势,创新性和丰富性都拉满的生信文章思路!!!

 智汇基因 2023-08-10 发布于广东

导语

今天给同学们分享一篇单细胞+多组机器学习的生信文章“Multi-omics identification of an immunogenic celldeath-related signature for clear cell renal cellcarcinoma in the context of 3P medicine and basedon a 101-combination machine learning computational framework”,这篇文章于2023年5月31日发表在The EPMA journal期刊上,影响因子为8.786。

肾透明细胞癌(ccRCC)是一种常见的泌尿系统恶性肿瘤,死亡率高。缺乏可靠的预后生物标志物破坏了其预测、预防和个性化药物(PPPM/3PM)方法的有效性。免疫原性细胞死亡(ICD)是一种特殊类型的程序性细胞死亡,与抗癌免疫密切相关。然而,ICD在ccRCC中的作用尚不清楚。

1. 单细胞免疫原性细胞死亡特征转录组

作者获得了7名早期透明细胞肾细胞癌(ccRCC)患者的单细胞RNA测序数据,包括34155个细胞。为了消除批次影响,作者使用了Harmony软件包,成功整合了七个样本。随后,将主成分分析(PCA)和t-分布随机邻域嵌入(t-SNE)应用于前2000个变异基因的降维。然后进行聚类,将所有细胞以1.5的分辨率聚集成40个聚类。使用不同细胞类型的标记基因,作者将细胞注释为十个主要簇,即肿瘤细胞、T细胞、纤维母细胞/周细胞、巨噬细胞、树突状细胞、单核细胞、肥大细胞、内皮细胞、NK细胞和B细胞(图1a)。热图显示了每个细胞群的前四个标记基因(图1b)。

图1 单个患者的免疫原性细胞死亡(ICD)特征单细胞转录组

为了量化不同细胞类型中免疫原性细胞死亡(ICD)的活性,作者使用Seurat软件包中的“AddModuleScore”函数来计算所有细胞中与ICD相关的34个基因集的表达水平(图1c)。在10种细胞类型中,作者观察到巨噬细胞、T细胞和单核细胞的ICD活性显著较高(图1d)。根据ICD活性,作者将细胞分为高ICD组和低ICD组,并在两组之间鉴定了836个不同表达的基因(DEG),以供进一步分析。

2. 在Bulk RNA-seq中识别关键模块和与ICD相关的基因

ssGSEA算法通常用于评估单个样本的生物过程和途径活性的变化。在这项研究中,作者使用ssGSEA算法来获得每个TCGA-KIRC的ICD活动得分样品,其用作后续WGCNA分析的表型数据。为了识别与ICD评分显著相关的模块,作者将WGCNA分析应用于TCGA-KIRC数据集。具体地,在去除异常样本后,使用在单细胞序列水平上鉴定的836个ICD相关的DEG来构建共表达网络(图2a)。选择最优软阈值功率=7(R2=0.874)以确保无标度拓扑网络。通过将最小模块基因数设为60,将MEDissThres设为0.25,共获得四个模块(图2b)。作者的结果表明,MEblue模块与大块RNA-seq中的ICD评分密切相关(cor=0.7,图2c)。此外,蓝色模块的基因显著性(GS)与模块成员关系(MM)的散点图显示出显著相关性(cor=0.89,p=3.9e−57,图2d),这表明蓝色模块内的基因可能具有与免疫原性细胞死亡相关的功能意义。

图2 免疫原性细胞死亡相关基因(ICDR基因)的鉴定

火山图(图2e)显示了TCGA-KIRC大块RNA-seq中肿瘤和正常肾组织之间的差异表达基因(DEGs)(|logFC|>0.5和p.adj<0.05)。作者将蓝色模块中的164个基因与大块RNA-seq中的DEGs相交,最终鉴定出共131个基因(图2f)。这些基因被命名为免疫原性细胞死亡相关基因(ICDRgenes),被认为在批量和单细胞转录组水平。ICDR基因的GO富集分析(图3g)显示出在生物过程(BP)中的显著富集,包括T细胞活化、白细胞介导的免疫、抗原处理和呈递,以及在细胞成分(CC)(如内吞小泡和MHC蛋白复合物)和分子功能(MF),包括酰胺结合、免疫受体活性,和MHC蛋白复合物结合。

随后,作者对131个ICDR基因进行了单变量Cox回归分析,确定了39个p值小于0.05的重要基因。为了进一步构建和验证模型,作者将TCGA基因列表与外部数据集E-MTAB-1980进行了交叉检查,并提取了37个共享基因。

单变量Cox回归分析的结果和这些基因的相互关系如图所示。此外,作者分析了37个基因的拷贝数变异频率(CNV),其中RNF130的拷贝数增加频率超过22%,如图2i所示。

3. 基于集成机器学习的预测特征的构建

为了构建一致的免疫原性细胞死亡相关信号(ICDRS),作者使用101种机器学习算法的组合来分析从单变量Cox回归分析中获得的37个预后基因。TCGA-KIRC数据集按1:1的比例分为训练集和内部验证集,两个集的临床特征分布如表S6所示。在训练集中,作者使用十倍交叉验证框架对101个预测模型进行了fted,并计算了所有训练和验证集的C指数,如图3a所示。

在101个模型中,最终使用随机生存森林(RSF)算法构建了按平均C指数排名的前fve预测模型。虽然这五个预测模型在训练集中表现良好,但它们在内部和外部验证集中都表现出较差的性能,C指数小于0.6。因此,作者从进一步的选择中排除了这些过度适应训练集的模型。然后,作者遵循plsRbox和Lasso+StepCox[backward]模型,两者其中在训练、内部验证和外部验证集中表现出良好的预测能力。然而,plsRcox模型共包含37个基因,而Lasso+StepCox[backward]模型仅包含6个基因,但实现了可比的预测效果。作为全面筛选的结果,作者确定Lasso+StepCox [backward]是一个具有高准确性和翻译相关性的预测模型。

使用十倍交叉验证框架,作者确定￾通过最小化部分似然偏差,在LASSO分析中提供了0.035695的最佳λ值(图3b,c)。然后,对LASSO分析中具有非零系数的基因进行逐步Cox比例风险回归分析(向后),从而鉴定出一组由六个基因组成的模糊集合(图3e)。此外,在训练集、内部验证集和E-MTAB-1980数据集中,高危组患者的总体生存率(OS)明显低于低危组患者(p<0.001,对数秩检验;图3g–i)。类似地,低风险组的无进展生存期(PFS)和疾病特异性生存期(DSS)明显好于高风险组(p<0.001,log-rank检验;图3j,k)。

图3 通过基于机器学习的综合程序开发并验证了一致的ICDRS

4. ICDRS模型评估

ROC曲线分析表明,在训练集中,ICDRS的曲线下面积(AUC)在1、3和5年间隔内分别达到0.746、0.755和0.808;内部验证集中的0.760、0.710和0.723;以及E-MTAB-1980数据集中的0.827、0.735和0.732(图4a–c)。这些结果表明ICDRS具有强大的判别能力。此外,作者将ICDRS的AUC与其他临床特征进行了比较,包括年龄、性别、分期、级别和T。结果显示,ICDRS的AUC明显优于其他临床特征的AUC。

ECOG是一个完善的评分系统,用于评估接受治疗的癌症患者的身体功能。在临床研究和实践中,它通常用于评估患者的治疗反应和预测生存结果。作者专门选择了包括ECOG评分的TCGA-KIRC样本,并比较了ICDRS和ECOG评分对ccRCC患者的预后准确性。作者的分析表明,相对于ECOG评分,ICDRS具有更高的表现AUC较高。

由于临床特征在临床实践中通常用于评估ccRCC患者的预后,作者评估了ICDRS与vari之间的相关性￾ous临床特征。在TCGA-KIRC数据集中,作者观察到高风险组和低风险组之间的级别、阶段、T和M的分布存在显著差异(p<0.001,卡方检验)(图4d,f)。此外,作者注意到,M1、III-IV期、G3-4和T3-4患者的风险评分显著高于M0、I-II期、G1-2和T1-2患者(p<0.001,Wilcox检验)(图4e)。这些结果表明ICDRS与ccRCC患者的不良预后有关。

有趣的是,作者观察到ICDRS可以预测ccRCC患者的M期。诊断ROC曲线分析显示ICDRS预测的AUC为0.721ccRCC患者的M期(图4g,h),表明其预测ccRCC转移的发展。

图4 ICDRS模型评估

通过进行KM曲线分析,作者还发现ICDRS在按各种临床特征(包括年龄、性别、分期、级别和T)分层的亚组中显示出对ccRCC的强大预后能力(图4i–l)。此外,作者观察到ICDRS中包含的6个基因与ccRCC的预后显著相关(log秩检验,p<0.05)。GEPIA2数据库证实了这些结论,因为对六个基因的存活分析显示了一致的结果。

5. ICDRS在ccRCC发病和进展中的预测性能

鉴于ICDRS在预测ccRCC患者预后方面的优越性能,作者试图确定其在预测ccRC发作和进展方面的适用性。为了评估ICDRS的诊断性能,作者使用了TCGA-KIRC、GSE53757和GSE36895数据集。作者的分析表明,ICDRS在识别ccRCC方面表现出很强的诊断准确性,TCGA-KIRC、GSE53757和GSE36895数据集的AUC值分别为0.813、0.829和0.766证明了这一点。此外,作者在所有三个数据集中观察到,与正常样本相比,肿瘤样本的ICDRS得分更高。

作者进一步研究了ICDRS预测肿瘤进展的能力。作者的研究结果表明,高危组患者更容易患上晚期ccRCC。此外,ICDRS在预测ccRCC分期时的AUC为0.703。这些结果表明,ICDRS对预测ccRCC的发作和进展具有重要潜力。

6. 结合临床特征的列线图的建立和验证

为了评估ICDRS是否是ccRCC的独立预后因素,作者进行了单变量和多变量的研究￾TCGA-KIRC数据集中OS、PFS和DSS的ate-Cox回归分析(图5a–c)。作者的结果表明,ICDRS是OS、PFS及DSS的重要风险因素在单变量分析中(HR>1,p<0.001)。

在多变量分析中,ICDRS仍然是OS(HR 1.802,CI 1.514–2.145,p<0.001)、PFS(HR 1.288,CI 1.048–1.583,p=0.016)和DSS(HR 1.938,CI 1.561–2.405,p<0.001)的独立预后因素,表明其在ccRCC患者中具有强大的预后能力(图5a–c)。此外,作者在E-MTAB-1980数据集中对OS进行了单变量和多变量Cox回归分析(图5d)。结果表明,ICDRS是ccRCC患者的独立预后因素(HR 2.189,CI 1.089–4.401,p=0.028),证实了作者在不同数据集中的发现的一致性。

为了使ICDRS更具临床应用性,作者根据ICDRS和临床特征构建了一个列线图(图5e)。校准曲线显示列线图预测之间的良好一致性和实际观察结果(图5f)。诺模图的AUC在1年、3年和5年的时间间隔分别达到0.867、0.830和0.814,表明其较高的预测准确性(图5g)。此外,C指数证明了诺模图稳定而稳健的预测能力,其在预测1至10年OS方面优于其他临床特征(图5h)。决策曲线分析(DCA)表明,该列线图比其他临床特征具有更好的净临床效益(图5i)。这些结果表明,基于ICDRS的列线图为个性化项目提供了可靠和准确的工具ccRCC的nosis预测。

图5 列线图的建立与验证

7. ICDRS的潜在分子机制

为了进一步研究ICDRS与ccRCC预后之间关系的分子机制,作者进行了功能富集分析。在基于GO基因集的GSEA分析中,作者观察到低风险组富含细胞的正调控死亡、细胞氮化合物分解代谢过程和跨膜信号受体活性(图6a),而高危组富含CD4阳性、α-βT细胞分化、吞噬作用、识别、抗菌体液反应和淋巴细胞迁移的阳性调节(图6b)。此外,GSVA分析显示,高危组在与IL_6_JAK_STAT3_SIGNALING、MYC_TARGETS_V2和TNFA_SIGNALING_VIA_NFKB相关的途径中表现出更强的活性,而低风险组在与PROTEIN_SECREATION、FATTY_ACID_METABOLISM和BILE_AID_METABO￾LISM(图6c)。ICDRS和标记通路评分之间的相关性分析进一步支持了这些发现(图6d),表明ICDRS与癌症相关的生物过程和代谢途径密切相关。

图6 ccRCC中各种ICDRS患者的转录组特征

为了确定Hallmark通路是否与ccRCC的预后相关,作者进行了KM曲线分析。作者发现与ICDRS呈正相关的途径,如IL_6_JAK_STAT3_SIGNALING、MYC_TARGETS_V2、DNA_REPAIR和TNFA_SIGNALING_VIA_NFKB,与不良预后相关。相反,与ICDRS负相关的途径,如蛋白质_SECREATION、脂肪_ACID_METABOLISM和胆汁酸代谢,都与良好的预后相关。这些结果表明,这些途径的激活或抑制可能有助于在ICDRS风险亚组中观察到的不同预后结果。

8. 不同ICDRS亚组的基因组变异景观和肿瘤内异质性

肿瘤内异质性(ITH)是由基因突变积累引起的癌症的一个众所周知的基因组特征。ITH已被证明与恶性肿瘤和化疗耐药性增加有关。在这项研究中,作者利用突变等位基因肿瘤异质性(MATH)算法来测量ccRCC患者的ITH,MATH分数越高,ITH越高。如图7a所示,高危组中ccRCC患者的MATH得分较高。作者进一步探讨了ITH与ccRCC患者预后之间的关系,发现与MATH评分低的患者相比,MATH评分高的患者的总生存期(OS)明显较差(log-rank检验,p=0.002;图7b)。将ITH与ICDRS相结合,作者发现“高风险+高MATH”组患者的预后明显低于“低风险+低MATH”的患者(log-rank检验,p<0.001)￾这两个指标的结合可以更好地评估ccRCC患者的预后(图7c)为了研究ICDRS亚组之间基因组突变的差异,作者描述了高风险组和低风险组之间的突变情况(图7d,e)。作者发现两组之间存在明显的突变。例如,一个重要的肿瘤抑制基因BAP1参与转录、细胞周期和对DNA损伤的反应的调节。高风险组的突变频率为16%,远高于低风险组的7%。

另一种肿瘤抑制因子SETD2可能参与肿瘤的发生化疗耐药性和突变时的不良预后。在高危组中,其突变频率为18%,而在低风险组中,仅为8%。此外,通过Fisher精确检验,作者证实,BAP1和SETD2的突变频率在高风险组和低风险组之间具有显著差异(p<0.01)。风险亚组之间不同的突变景观可以解释为什么ICDRS风险亚组表现出不同的预后状态。

还分析了高风险组和低风险组前25个突变基因中共现突变和排他突变的相关性。结果表明,高风险组共现突变频率较高(图7f)。此外,作者研究了ICDRS风险亚组之间差异最大的前30个基因的拷贝数变异(CNVs)(图7g)。作者的结果表明,CNV的增加是LRP2、SLC6A19和PCK1的主要变化,而CNV的损失主要发生在MAP7、SLC22A2、C1orf210和KL中。此外,与正常样本相比,肿瘤样本中LRP2的表达显著上调,而MAP7的表达显著下调,表明CNV的变化在控制基因表达。

图7 低风险和高风险人群与ICDRS相关的基因改变

9. ICDRS与单细胞特征的相关性

探讨ICDRS在肿瘤微环境中的作用在单细胞转录组水平上,作者分析了CNPY3、HLA-DPB1、KCTD12、LIPA、MIR155HG和TNFSF13B在不同细胞类型中的表达模式(图8a)。结果表明,这些基因主要在免疫细胞中表达,如巨噬细胞、单核细胞和树突状细胞。使用ICDRS模型公式,作者计算了单细胞转录组中每个细胞的ICDRS风险评分,并以肿瘤细胞为参考组进行了Wilcoxon试验。作者发现肿瘤细胞、肥大细胞和B细胞的风险评分明显更高。作者进一步进行了差异分析。

接下来,作者将肿瘤细胞分为高风险评分组和低风险评分组,并研究它们与TME中其他类型细胞的相互作用。作者发现具有不同ICDRS评分的肿瘤细胞具有不同的通信模式(图8d,e段)。TME中的不同细胞类型可以在细胞通信中充当发送器、接收器、介质和影响者,从而在细胞之间产生特定的信号。作者的研究结果表明,低风险评分的肿瘤细胞与更多类型的TME细胞通讯,并在APP信号、ITGB2信号和MK信号中发挥更强的中介和影响作用。因此,它们可以调节粘附肿瘤细胞的分化和迁移,并对癌症细胞的存活有影响(图8f–h)。

 图8 ICDRS与单细胞特征的相关性

10. 免疫微环境和免疫特性与ICDRS的相关性

为了评估ccRCC样本的免疫影响状态,作者应用ESTIMATE算法计算ICDRS风险亚组的免疫评分、基质评分、ESTIMATE评分和肿瘤纯度评分。高危组的免疫评分和估计评分显著较高,肿瘤纯度评分较低(图9a)。此外,使用ssGSEA算法,作者获得了免疫相关通路评分。高危组在炎症促进、细胞溶解活性和T细胞共抑制途径中表现出明显更强的活性(图9b)。

为了进一步分析高危组和低危组之间特异性免疫细胞浸润的差异,作者￾使用CIBERSORT算法确定每个样本中流入的免疫细胞的丰度(图9c)。作者发现,血浆细胞、T细胞CD8、T细胞CD4记忆激活和T细胞滤泡辅助细胞在高危组中更丰富。而没有抗癌活性的细胞类型,如T细胞CD4记忆静息、巨噬细胞M2和肥大细胞静息,在低风险组中更丰富。通过应用ssGSEA算法和Xcell算法进行验证,也获得了类似的结果(图9d)。此外,作者发现ICDRS中的六个基因与肿瘤浸润免疫细胞高度相关,其中MIR155HG与T细胞CD8和T细胞卵泡辅助细胞呈正相关,KCTD12和LIPA与巨噬细胞M2呈正相关(图9e)。

接下来,作者通过Spearman相关性分析筛选出与ICDRS显著相关的免疫细胞类型,确定了11种细胞类型(p<0.05)(图9f)。作者还分析了ccRCC患者TME细胞浓度与OS之间的关系。作者的结果显示,11种TME细胞类型与ccRCC患者的预后有显著相关性(log-rank检验,p<0.05),表明TME细胞浓度在ccRCC患者预后中起着重要作用。通过结合图10c中的差异分析、图9f中的相关性分析和补充图中的生存分析的结果。作者使用交集的Venn图最终确定了七种交叉的TME细胞类型(浆细胞、T细胞CD4记忆静息、T细胞CD4记忆激活、T细胞滤泡辅助、单核细胞、巨噬细胞M2和肥大细胞静息)(图9g)￾阐明了这七种类型的免疫细胞在ccRCC预后和发展中的重要性。

图9 ccRCC中与ICDRS相关的免疫景观

11. ICDRS与抗癌症免疫周期及免疫治疗反应的关系

由于肿瘤内免疫过程和微环境的复杂性,仅免疫细胞浸润的丰度不足以表征免疫激活和衰竭。然而,通过评估抗癌免疫循环中每个步骤的活性,可以更全面地了解免疫细胞的抗癌作用,提高免疫治疗的指导作用。在图10a中,在ICDRS风险亚组之间观察到抗癌免疫循环的步骤2、3、4和6中的显著差异。高危组在启动和激活方面表现出更强的活性￾激活(步骤3),免疫细胞运输到肿瘤(步骤4),以及T细胞识别癌症细胞(步骤6)。此外,“免疫细胞向肿瘤转移的第4步”被进一步引用,以分析ICDRS风险亚组对不同免疫细胞的募集。结果显示,高危组具有更大的招募免疫细胞的能力,如T细胞、CD8 T细胞、树突状细胞和B细胞(图10b)。这些发现表明,高危组在免疫细胞功能周期中表现出更大的抗癌活性。

先前的研究报道,免疫检查点的高表达与对免疫检查点抑制剂(ICI)治疗的更好反应有关。因此,作者检测了ICDRS风险亚组之间免疫检查点的表达水平。如图10c所示,大多数免疫检查点,如PDCD1(PD1)、CTLA-4、TIGIT、LAG3和TNFRSF25,在￾在高危人群中表达非常高。为了进一步验证作者的结果,作者分析了从TCIA数据库中获得的IPS分数。较高的IPS评分预测对ICI治疗的更好反应,ICI治疗包括PD-1抑制剂和CTLA4抑制剂治疗,分为四类:(1)IPS_CTLA4_pos_pd1_pos(CTLA4+/pd1+治疗),(2)ips_ ctla4_pos_pd1_,(3)ips_ctla4_neg_pd1_pos(ctla4-/pd1+治疗)和(4)ips_ctla\4_neg_prd1_neg(ctla4-/pd1-治疗)。作者的研究结果显示,高风险组中CTLA4+/PD1+和CTLA4+/PD1-治疗的IPS明显更高,表明高风险组患者对抗CTLA4治疗以及抗PD-1和抗CTLA4-联合治疗的反应比低风险组更好(图11d–e)。

图10

为了进一步验证ICDRS对患者免疫治疗反应的预测能力,作者将￾合并IMvigor210队列,接受atezoli￾珠单抗治疗。使用ICDRS模型,作者计算了队列的风险评分,并将患者分为高风险组和低风险组。值得注意的是,高危组表现出较高的肿瘤突变负荷(TMB),这是一种已知的肿瘤前病变免疫疗法反应的tor(图10f)。卡方检验显示,在高危组中,完全缓解/部分缓解(CR/PR)的比例明显更高,而在低风险组中观察到更多的稳定疾病/进行性疾病(SD/PD)病例(图10g)。此外,CR/PR患者的风险评分明显高于SD/PD患者(图10h,i)。总之,这些结果支持了ICDRS预测免疫疗法疗效的能力,表明高危人群可能从这种治疗中获得更大的益处。

12. ICDRS与药物敏感性的相关性分析及基因表达验证

在晚期肾细胞癌(RCC)的治疗中,一线治疗通常涉及多靶向酪氨酸激酶抑制剂(TKIs)和mTOR抑制剂。然而,由于肿瘤微环境的高度动态和异质性,耐药性是一个常见的问题。对此,作者检测了ICDRS风险亚组对几种酪氨酸激酶抑制剂的敏感性,即舒尼替尼、帕唑帕尼和阿西替尼,以及mTOR抑制剂替莫西。作者的结果表明,在低风险组中,舒尼替尼和帕唑帕尼的半最大抑制浓度(IC50)显著较低(图11a,b),并且风险评分与舒尼替尼和帕唑帕尼的IC50呈正相关(图11e,f)。相反,高危组的阿西替尼和替西罗莫司的IC50较低(图11c,d),风险评分与这些治疗的IC50呈负相关(图11g,h)。这些结果表明,低风险组的患者对舒尼替尼或帕唑帕尼的治疗可能反应更好,而高危组的患者可能对阿西替尼和替西罗莫司更敏感。

此外,为了确定ccRCC患者的潜在新药物,作者基于高风险组和低风险组之间前300个上调或下调的基因进行了XSum分析。该分析使作者能够计算不同药物的CMap评分,并确定可能逆转高危人群表型的药物。作者确定了CMap得分最低的顶级5个药物:MS-275、PHA-00816795、伊马替尼、法舒地尔和丁烯(图11i)。这些药物可能是抑制癌症向恶性肿瘤发展的潜在治疗选择,具有作为ccRCC干预和预防措施的潜力。最后,作者评估了ICDRS中六个基因在四种细胞系中的表达,包括一个正常细胞系(HK-2)和三个ccRCC细胞系(786-O、Caki-1和Caki-2)(图11j–O)￾DPB1、KCTD12、LIPA、MIR155HG和TNFSF13B在肿瘤细胞系中显著上调。

图11 ICDRS与药物敏感性和基因验证之间的关系


总结

在目前的研究中,作者构建了一种免疫原性细胞死亡相关信号,该信号可作为ccRCC患者预后预测、预防和个性化药物的一种有前途的工具。在PPPM框架中结合ICD将为临床智能和新的管理方法提供独特的机会。此外,作者从基因组学、单细胞转录组学和大量转录组学的角度对ccRCC的发展和进展的分子机制提供了新的见解。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多