|
在这项研究中,作者利用乳酰化相关基因开发了一种基于机器学习的乳酸化特征(MLLS),旨在为乳腺癌患者建立预后模型。通过在十倍交叉验证框架中整合 108 种不同的机器学习方法组合,作者试图确定最有效的患者生存预测模型。作者计算了 TCGA-BRCA 队列中每个算法组合以及八个独立验证队列的平均 C 指数。选择随机生存森林 (RSF) 方法,该方法实现了 0.66 的最高平均 C 指数,用于评估模型的预测效果 ( Figure 1A)。为了识别关键的乳酸化相关基因,作者进行了 1000 次随机森林测试,揭示了与最小错误率相关的基因 ( Figure 1B)。然后,作者构建了一个相对变量重要性图来说明这些基因对模型的贡献( Figure 1C)。此外,作者采用单变量 Cox 回归分析来评估所选乳酸化相关基因的预后意义,计算 9 个队列的风险比 (HR) ( Figure 1D)。开发用于乳腺癌预后的机器学习衍生的乳酸化特征。(A) 9 个乳腺癌队列中 108 种组合算法的平均 C 指数。(B) 1000 次迭代中 RSF 的错误率。(C) 顶级基因的重要性。(D) 9 个乳腺癌队列中顶级基因的预后 (E)。 模型中使用的关键基因的相关系数。从这项分析中,确定了两个正相关基因(ENO1 和 RIMS1) 和五个负相关基因 (IK、WBP11、SF3B1、CBR1 和 PTMA) 并用于构建 MLLS 模型 (Figure 1E)。这些基因参与关键的生物途径,如血管生成、营养物质运输和昼夜节律调节,这与癌症进展和治疗反应有关。通过整合这些基因,作者旨在提高模型的预后效用,特别是在根据乳酰化特征区分患者预后方面。为了评估 MLLS 模型的有效性,作者确定了 9 个队列中每个样本的风险评分。MLLS 成功地将患者分为高风险组和低风险组 ( Supplementary Figure S1A)。Kaplan-Meier 生存分析表明,被确定为高风险的患者的生存率明显低于低风险组 ( Supplementary Figure S1B)。鉴于乳腺癌已知的分子异质性,作者评估了 MLLS 模型在不同分子亚型中的性能。作者的分析没有发现 MLLS 预后性能的显着亚型特异性差异,这表明乳酸化特征在不同乳腺癌环境中的稳健性和广泛适用性。87. 使用已发表的乳腺癌特征对 MLLS 预测模型进行综合评价为了进一步评估 MLLS 模型的预测准确性和可靠性,作者与 9 个不同队列中 87 个先前建立的乳腺癌预后模型进行了比较。单变量和多变量 Cox 分析都表明,当与其他临床指标(如年龄、更年期状态和疾病分期)相比,MLLS 是一个独立的危险因素 ( Supplementary Figure S2A)。通过使用三个变量——MLLS 风险评分、年龄和分期(包括分期,因为它在临床上普遍使用,尽管没有统计学意义)——作者创建了一个列线图来估计患者在 1 年、3 年和 5 年的生存概率 ( Supplementary Figure S2B)。列线图对不同乳腺癌类型患者总生存期(OS) 的预测与整个队列中观察到的实际生存率一致,如校准曲线和决策曲线分析 (DCA) 所示 ( Supplementary Figures S2C-E)。这种一致性强调了列线图在预测患者预后方面的增强能力。此外,MLLS 模型的受试者工作特征曲线下面积 (AUC) (0.66) 超过了其他临床变量的面积,这表明 MLLS 风险模型在预测患者预后方面具有优势( Supplementary Figure S2F)。为了加强对 MLLS 模型的预测能力和一致性的评估,作者收集并分析了之前发表的 86 个模型,跨越 9 个不同的队列。在这些模型中,MLLS 是唯一一个在所有 9 个队列中都表现出统计显着性的模型 ( Figure 2A)。作者使用不同的数据集来衡量稳定性,评估了每个模型的平均 C 指数。研究结果表明,MLLS 模型在每个队列中都可靠地位居前列,在其中 5 个队列中获得第一名,在 1 个队列中获得第二名,在 1 个队列中排名第四,在 2 个队列中排名第七。与同类模型相比,这一表现凸显了 MLLS 模型令人印象深刻的稳健性和卓越的有效性 ( Figure 2B)。使用 87 个已发表的乳腺癌特征对 MLLS 预测模型进行综合评估。(A) 10 个 BC 队列中模型的单变量 Cox 分析。(B) 10 个乳腺癌队列中模型的平均 C 指数比较。肿瘤细胞的遗传景观在不同患者之间显示出显着的差异。为了探索高低 MLLS 队列之间的遗传多样性,作者检查了每组的基因突变以及拷贝数改变(CNA)。作者对 TMB 的初步评估表明,高 MLLS 队列中的个体的 TMB 超过了低 MLLS 队列中的个体 ( Figures 3A, C)。此外,作者探索了 CNA,其中红色表示拷贝数增加,蓝色表示丢失。研究结果表明,高 MLLS 队列在染色体臂水平上表现出更显着的扩增和缺失 ( Figures 3A, C)。这包括 3q26.32、6q21、6p23、8q24.21 和 10p15.1 等特定区域的扩增,以及 4q35.2、5q11.2、5q21.3、11p15.5 和 19p13.3 等区域的缺失 ( Figure 3A)。值得注意的是,位于染色体 8q24.21 上的 PVT1、MYC、CCDC26 和 GSDMC 等基因被显著扩增,而染色体 5q21.3 上的 GPBP1、RAB3C、DDX4 和 ITGA1 表现出显著缺失 ( Figure 3A)。与 MLLS 相关的遗传改变景观。(A) MLEM 的基因组改变景观,从上到下:TMB、基因突变特征、基因突变频率、CNA(红色代表扩增,蓝色代表缺失)以及区域 8q24.21 和 5q21.3 中的代表基因。(B) MLLS 组之间 10 个致癌途径的突变频率。(C) MLEM 组之间 TMB 的比较。(D) 染色体臂的扩增或缺失。*P<0.05, **P<0.01, ***<0.001, ****P<0.0001.通过综合来自 TCGA 数据库中与 10 个已建立的癌症信号通路相关的信息,作者发现 TP53、CNTN6、CREBBP 和 EP300RB1 等经典抑癌基因在高 MLLS 组中具有较高的突变频率。相比之下,PIK3CA/B、AKT 和 RET 等癌基因在低 MLLS 组中表现出更普遍的突变 ( Figure 3B)。此外,高 MLLS 组的 SBS2、SBS13 和 APOBEC 等突变特征显着降低 ( Figure 3C)。总之,高 MLLS 组 TMB 的增加以及染色体臂水平缺失和扩增的增加可能在导致不良预后结果方面发挥重要作用 ( Figure 3D)。单细胞分析揭示了与 MLLS 相关的转录和调节机制在单细胞水平上进一步检查了 MLLS 的特性。作者选择了 15 名患者,其中 6 名正常组织和 9 名乳腺癌肿瘤组织,用于 MLLS 的深入评估 ( Supplementary Figures S3A, B)。细胞被分为 20 个簇和 8 种独特的细胞类型 ( Figures 4A, B)。作者测量了每种类型的细胞数量,并评估了每种细胞类型在患者中的比例( Supplementary Figures S3C, D)。用对应于每种细胞类型的特定代表性标记标记细胞,并仔细检查这些标记物的实际分布( Figure 4C; Supplementary Figure S3E)。单细胞测序确定了正常组织和肿瘤组织之间细胞类型之间的转录组变异。研究结果表明肿瘤组织内的巨噬细胞、浆细胞、B 细胞、T 细胞和上皮细胞显着浸润 ( Figure 4D)。采用 MLLS 模型进行单细胞分析,以创建详细的细胞分布图 ( Figure 4E),上皮细胞根据峰值分数进一步分为高 MLLS 和低 MLLS 类别 ( Figure 4F)。单细胞分析揭示了 MALL 的生物学机制。(A) UMAP 可视化说明了细胞簇的分布。(B) UMAP 可视化说明了已识别细胞类型的分布。(C) 每种细胞类型的代表性标志物。(D) 肿瘤组织和正常组织之间八种细胞类型的比例。(E) UMAP 可视化说明了 MLLS 值的分布。(F) MLLS 值在各种细胞类型的分布。(G) 使用 copyKAT 算法估计拷贝数。(H) 上皮细胞中二倍体和非整倍体细胞之间的 MLLS 方差。P<0.0001。在此分类之后,作者对 8 种已确定的细胞类型进行了差异基因表达分析和功能聚类,以阐明潜在的功能通路 ( Supplementary Figures S3F, G)。为了评估拷贝数改变并区分肿瘤细胞与正常上皮细胞,使用了 CopyKAT 包 ( Figure 4G)。作者的研究表明,肿瘤非整倍体细胞的 MLLS 评分高于肿瘤二倍体细胞,突出了 MLLS 在乳腺癌进展中的关键作用 ( Figure 4H)。为了更深入地了解 MLLS 背后的调控机制,作者利用 SCENIC 管道从单细胞 RNA 测序数据构建基因调控网络,并结合顺式调控序列信息。将基因表达数据转化为 TFs 的 RAS ( Figures 5A, B)。随后进行主成分分析(PCA) 和方差分解。PCA1 揭示了细胞类型特异性的 TFs,而 PCA2 突出显示了 MLLS 特异性的 TFs ( Figures 5C, D)。确定影响 MLLS 和细胞分化的调节因子。(A) umapRAS 可视化说明了细胞簇的分布。(B) umapRAS 可视化说明了 MLLS 的分布。(C) 方差分析图突出显示了细胞类型的 PC1 影响。(D) 方差分析图突出显示了 MLLS 的 PC2 影响。(E) 基于 RSS 的每种细胞类型的调节子排名。(F) 三个顶级调节子专注于上皮细胞。(G) 使用 Leiden 算法构建的调节子的交互网络。(H) 模块 B 和 (J, I) 与上皮细胞中 MLLS 相关的功能变异的详细网络。(J) 高 MLLS 背景下的代表性途径。(K) 参与细胞运动的 TF。(L) 参与细胞运动的 TF 之间相互作用的详细调节网络。使用 Jensen-Shannon 分歧,作者根据每种调节因子的特定评分确定了每种细胞类型的前 10 个关键 TF。对于上皮细胞,作者关注调节因子特异性评分(RSS) 最高的前三个调节因子——MAZ、SPDEF 和 ILF2——作为最相关的调节因子,作者对其他七种细胞类型( Figures 5E, F;) 进行了类似的分析 Supplementary Figure S4A。为了阐明 TFs 之间在调节 MLLS 特定生物功能方面的合作关系,作者使用 Leiden 算法分析了每个调节对的 RAS 评分。该聚类分析确定了 11 个 TF 簇,其中聚类 B 和 J 对 MLLS 发育的贡献最高 ( Figures 5G, H; Supplementary Figure S4B)。上皮细胞的基因集富集分析(GSEA) 揭示了几种通路的激活,而细胞运动通路在低 MLLS 的细胞中受到显着抑制 ( Figures 5I, J)。进一步鉴定参与调节细胞运动和影响 MLLS 进展的 TF,从而得到描述这些 TF 之间关系的调节网络图 ( Figures 5K, L)。MLLS 中免疫分析的免疫分析和免疫治疗靶点的鉴定为了评估按高 MLLS 和低 MLLS 分类的患者的潜在免疫治疗靶点,作者利用了六种不同的算法来评估乳腺癌患者体内的免疫细胞浸润。研究结果表明,与高 MLLS 类别的个体相比,低 MLLS 类别的个体表现出更高水平的免疫细胞浸润,包括 CD4+ T 细胞、CD8+ T 细胞、B 细胞、NK 细胞和单核细胞 ( Figure 6A)。此外,低 MLLS 组的关键 ICI (包括 PD-L1、PD-1、CTLA4 和 HAVCR2)的表达水平明显更高,这意味着这些个体对免疫治疗的敏感性增强 ( Figure 6B)。免疫组织化学(IHC) 通过使用代表性细胞标志物和临床 ICI 支持这些结论 ( Figure 6C)。MLLS 亚组之间肿瘤微环境中免疫标志物的差异表达和免疫组织化学分析。(A) 热图提供了低 MLLS 和高 MLLS 肿瘤样本中免疫细胞浸润的比较视图,利用各种计算算法进行量化。每行代表不同类型的免疫细胞,颜色强度反映了浸润水平。红色文本表示高 MLLS 组的浸润增加,而蓝色文本表示浸润减少。(B) 箱形图说明了低 MLLS 与高 MLLS 条件下 ICI 基因表达水平的分布,统计显着性用 ns 表示不显著;*P < 0.05;**P < 0.01;P < 0.001;P < 0.0001。(C) 代表性免疫组织化学图像显示了高表达和低表达条件下各种免疫标志物的染色强度,直观地描绘了这些标志物与 MLLS 水平相关的差异表达。随后,作者应用 ESTIMATE 算法来评估肿瘤免疫微环境,发现 ESTIMATE、免疫和基质评分升高,而低 MLLS 队列中的肿瘤纯度降低 ( Figure 7A)。此外,在高 MLLS 组中观察到的低 TIDE、排除和功能障碍评分表明免疫逃避的可能性增加,这可能会影响 ICI 治疗效果的降低 ( Figure 7B)。Kaplan-Meier 分析显示,与其他组组合相比,低 MLLS 和 TIDE 评分高的患者生存期延长 ( Figure 7C)。综上所述,这些发现表明,相对于高 MLLS 的个体,低 MLLS 的个体表现出增强的抗肿瘤免疫活性 ( Figure 7D)。MLLS 中免疫治疗靶点的免疫分析和鉴定。(A) MLLS 组之间的 ESTIMATE 评分、免疫评分、基质评分和肿瘤纯度。(B) MLLS 组之间的 TIDE、功能障碍和排除变化。(C) 基于 MLLS 和 TIDE 组合的患者生存概率。(D) MLLS 与免疫通路和肿瘤免疫周期的相关性分析。(E,我) 小提琴图显示 MLLS 水平与对抗 PDL1 (E) 和抗 PD1 (I) 疗法的反应之间的关系,详细说明了不同的免疫反应。(F,J) 抗 PDL1 (F) 和抗 PD1 (J) 队列中低和高 MLLS 患者的生存概率,分别说明了 MLLS 对生存结果的影响。(克,K) 分析通过考虑 TMB 组合的 AUC 值估计 MLLS 在抗 PDL1 (G) 和抗 PD1 (K) 队列中的预测能力,评估 MLLS 作为生物标志物的疗效。(高,L) 根据 MLLS 水平显示抗 PDL1 (H) 和抗 PD1 (L) 队列中完全缓解/部分缓解 (CR/PR) 和疾病稳定/进展性疾病 (SD/PD) 的百分比,以评估治疗效果。为了进一步研究 MLLS 预测对免疫检查点阻断治疗反应的能力,作者分析了来自抗 PD-L1 队列 (IMvigor210) 和抗 PD-1 队列 ( GSE78220 ) 的数据。低 MLLS 患者在两个队列中都表现出显着的治疗益处和临床改善 (IMvigor210: Figures 7E–H; GSE78220 : Figures 7I–L)。癌症治疗通常以化疗为标准方法。在作者的研究中,作者利用来自各种数据集的数据来确定针对 MLLS 评分升高的乳腺癌患者的潜在靶向治疗。作者的研究结果表明,MLLS 评分与四个有前途的治疗靶点的表达水平呈正相关:CHEK1、ESRRA、B4GALT2 和 SLC25A5。相比之下,作者注意到与他们的 CERES 评分呈负相关,表明表现出高 MLLS 评分的患者可能存在脆弱性 ( Figure 8A)。此外,这些靶点与几个基本的药物作用途径相关,突出了它们作为该特定患者群体重要治疗靶点的重要性( Figure 8B)。确定高 MLLS 患者的潜在治疗药物。(A) Spearman 的相关性说明了 MLLS 与乳腺癌患者潜在治疗靶点丰度之间的关联。(B) 网络分析突出了这些治疗靶点与其相关药物作用途径之间的复杂联系。(C) 箱线图比较了 CTRP 数据集中 6 种化合物的 AUC 值。(D) 箱线图比较了 PRISM 数据集中 3 种化合物的 AUC 值。(E) 汇总表概述了 9 种候选化合物的多角度分析,详细说明了它们的临床状态、实验证据、mRNA 表达水平和 CMap 评分。从 CTRP 数据集中,作者确定了六种化合物(BI-2536、GSK461364、甲氨蝶呤、紫杉醇、SB-743921 和长春新碱),从 PRISM 数据集中,作者确定了三种化合物(吉西他滨、异斯皮内西布和长春新碱)。与低 MLLS 组相比,高 MLLS 组的患者对这些化合物的 AUC 值较低,表明对这些化疗药物的敏感性增加 ( Figures 8C, D)。通过 CMap 分析进一步评估每种化合物的临床状态、实验证据、mRNA 表达水平和 CMap 评分,鉴于其 CMap 评分为 -99.82 ( Figure 8E),确定甲氨蝶呤是高 MLLS 患者最有利的治疗方法。 总结 本研究强调了基于乳酸化的生物标志物在预测乳腺癌预后和治疗反应方面的潜力。关于乳酸化在免疫抑制和化疗耐药中的作用的意外发现表明,靶向乳酸化可以提供新的治疗机会,尤其是在对常规疗法耐药的患者中。未来的研究将需要解决肿瘤微环境中乳酸化和免疫调节的功能机制,以充分发挥其作为乳腺癌治疗靶点的潜力。
|