分享

6+分型+机器学习+单细胞,纯生信高分指南,换个疾病又是一篇sci!

 智汇基因 2025-06-18 发布于广东

导语

结果:

基于 ECM 成分和调节因子对乳腺癌亚型进行 NMF 分类,揭示出不同的生存结果
为了深入探究乳腺癌细胞外基质(ECM)的多样性组成,作者筛选了包含胶原蛋白、糖蛋白、蛋白聚糖、ECM 调节因子及其他 ECM 相关成分的 513 个特征。利用 NMF 算法,作者根据这些特征的转录表达水平对 TCGA-BRCA 数据集中的 1026 名患者进行分类。通过最优 NMF 测量和分析,作者识别出三个不同的簇(图 1 ,S1 和表 1 )。在分子分类方面,簇 1(C1)的患者主要表现出 luminal 亚型特征,而簇 3(C3)的患者大多为雌激素非依赖型,如三阴性乳腺癌(TNBC)或 Her-2 阳性(HER2)(图 1 B 和表 S1)。值得注意的是,簇 2(C2)包含了各分子亚型中适度的比例(图 1 B),并且与其他两个簇相比,其预后显著较差(图 1 C-E)。这些发现表明,特定的 ECM 组成和调节因子可能预测乳腺癌患者的预后,无论其分子亚型如何。
基于 ECM 特征对乳腺癌患者进行 NMF 聚类。A TCGA-BRCA 队列中基于 NMF 算法绘制的三个 ECM 聚类热图。B 圆形图展示每个 ECM 聚类中乳腺癌分子亚型的分布。C Sangi 图展示 ECM 聚类、复发生存状态、OS 状态与乳腺癌分子亚型之间的关联。D K-M 曲线图展示每个 ECM 聚类患者无病生存状态。E K-M 曲线图展示每个 ECM 聚类患者总生存状态。F 维恩图展示各 ECM 聚类间上调 DEGs 的交集。G 箱线图展示每个 ECM 聚类中特定上调 DEGs 的 Top 5 富集 Reactome 通路。H 热图展示每个 ECM 聚类中 HALLMARK 基因集的富集状态。 I-K 箱线图展示了 HALLMARK 基因集在 C1 (I), C2 (J), C3(K) 中的富集状态。Wilcox 检验,*: P < 0.05, **: P < 0.01, ***: P < 0.001, ****: P < 0.0001
接下来,作者探索了区分这些集群的生物学特征。差异表达基因(DEG)分析显示,在 C1、C2 和 C3 中分别有 315、68 和 1,089 个特异性上调的 DEG,以及 887、14 和 425 个特异性下调的 DEG(图 1 F、S1B 和 S1C)。Reactome 通路分析表明,C1 表现出神经相关信号通路的激活,C2 以 ECM 重塑增强为特征,而 C3 显示出免疫反应增加(图 1 G 和 S1D)。此外,基于 HALLMARK 基因集的 GSVA 分析进一步区分了每个集群的生物学特征(图 1 H)。C1 显示出激素通路(如雌激素反应早期和雌激素反应晚期)更高的富集程度,与其主要为管腔亚型组成一致(图 1 I 和 S1E)。相比之下,C2 表现出雄激素反应通路增强的富集(图 1 J)。此外,先前报道与 ECM 相关的几个通路,包括血管生成、 hedgehog 信号通路和上皮间质转化,在 C2 中显著富集(图 1 J 和 S1F)。最后,C3 以免疫反应增强为特征(图 1 K 和 S1G)。 这些发现强调了细胞外基质与各种生物学特征之间的全局联系,最终影响患者结果和治疗策略。
分析乳腺癌患者基因组揭示 ECM 簇的独特特征
随后,作者检查了乳腺癌患者每个细胞外基质(ECM)簇中单核苷酸变异(SNV)的不同状态。值得注意的是,与其它簇相比,C3 表现出最高的肿瘤突变负荷(TMB),而 C1 则最低(图 2 B)。在基因突变方面,磷脂酰肌醇-4,5-二磷酸 3-激酶催化亚基α(PIK3 CA)主要在 C1 中突变,而 C2 和 C3 中 TP53 的突变更多(图 2 C,S2 A,和 S2B)。此外,在 C2 和 C3 患者中观察到 TP53 和 PIK3 CA 突变之间存在显著的互斥性,但在 C1 中没有(图 S2 C)。基于单个基因突变的生存分析显示,在 C1、C2 和 C3 中,赖氨酸甲基转移酶 2C(KMT2 C)、肌营养不良蛋白(DMD)和中隔蛋白 AAA ATP 酶 1(MDN1)的突变分别与较差的生存率相关(图 2 D)。可药物靶点基因的分析表明,三个簇之间在药物选择上没有显著差异。这些簇是根据它们的 ECM 特征定义的(图 2 E)。 这表明需要在转录组水平上进行进一步探索,以识别特定的生物标志物。
对 ECM 簇乳腺癌患者的基因组分析。A 绘制每个 ECM 簇中最突变基因的热图。B 展示每个 ECM 簇中肿瘤突变负荷状态的点图。C 描绘 TCGA-BRCA 队列中每个 ECM 簇中差异突变基因的箱线图。D 绘制具有 KMT2 C、DMD 或 MDN1 突变的不同 ECM 簇患者总生存期状态的 K-M 曲线。E 基于每个 ECM 簇中突变基因的可药物性分析箱线图
WGCNA 分析揭示与 ECM 簇相关的核心差异基因
为深入探究与每个 ECM 簇相关的核心基因,作者进行了 WGCNA 分析。排除了异常样本(图 S3 A),并根据 0.85 的无标度 R^2 评分选择了软阈值 5(图 S3B)。作者选择了变异最大的前 5,000 个基因进行 WGCNA 分析,并识别出 11 个不同的模块(图 3 A,以及表 S2)。相关性分析显示,蓝色、青绿色和棕色模块分别与 C1、C2 和 C3 显著相关(图 3 B 和 C)。具体而言,蓝色模块中的基因在 C1 中表达水平更高,而青绿色模块在 C2 和棕色模块在 C3 中也观察到类似模式(图 S3 C 和 S3D)。
WGCNA 分析关联了 ECM 簇。A 基于 ECM 成分和调节基因表达数据,WGCNA 分析结果热图显示了具有高协方差的基因模块。 B 模块-性状关系热图。 C 点图展示了蓝色、青绿色和棕色模块中模块成员与基因重要性的相关性。 D Cytoscape 图展示了模块基因的相对表达水平、PPI 网络和富集的 Reactome 通路。 E 维恩图显示了每个 ECM 簇中特异性上调和下调的 DEG 与模块基因的交集
接下来,作者使用蛋白质相互作用(PPI)分析探索了这些模块基因之间的相互作用,随后对相互作用蛋白进行了 Reactome 通路分析。与 DEG 分析结果(图 1 )一致,作者发现:i) 蓝色模块中的蛋白富集于神经系统通路和雌激素依赖性基因表达通路;ii) 绿松石色模块中的蛋白与细胞外基质(ECM)重塑相关;iii) 棕色模块中的蛋白富集于免疫相关通路(图 3 D)。随后,作者从这些模块基因中筛选出特定的 DEG,最终鉴定出与不同 ECM 簇显著相关的 156、27 和 370 个特定基因(图 3 E)。这些发现突出了与 ECM 簇相关的多种特定基因,它们可能在预测乳腺癌患者预后中发挥关键作用。
基于 ECM 簇特异性差异基因构建机器学习模型以预测乳腺癌预后
为探索 ECM 簇特异性差异基因在预测乳腺癌预后的潜力,作者从 TCGA-BRCA 和 10 个其他独立数据库中收集转录组数据。经过严格的质量控制和数据整合后,作者选择了四个关键数据库——TCGA、Metabric、SCAN_B 和 GEO,创建了一个包含 6,736 名乳腺癌患者的元队列,用于进一步分析。该元队列随后被分为训练队列(n = 5,392)和测试队列(n = 1,344)。
作者采用了一个包含 10 种不同算法的集成机器学习模型来构建一个预后模型(Liu 等人 2024 )。使用 C 指数评估了训练队列中各种组合算法的性能(图 S4 A),其中 RSF 模型被确定为预测总生存期(OS)最有效的模型。该模型中包含的因素被识别出来(图 S4B)。为了提高模型的效能,作者进行了第二步的 RSF 训练,使用基因子集并基于其变量重要性选择了前 20 个基因。然后使用这 20 个显著基因计算了一个风险评分,称为 ECI(图 4 A,表 S3)。值得注意的是,CD79 A、RAS 鸟苷释放蛋白 2(RASGRP2)和 C-趋化因子配体 19(CCL19)特异性地属于 C3 组,而骨糖蛋白(OGN)和层粘连蛋白α2 亚基(LAMA2)特异性地属于 C2 组,其余基因特异性地属于 C1 组。
预后模型构建与验证。A 根据变量重要性排序的前 20 个 RSF 基因结果。 B 在训练队列中绘制 ECIHigh 和 ECILow 患者 OS 和 RFS 状态的 K-M 曲线。 C 在测试队列中绘制 ECIHigh 和 ECILow 患者 OS 和 RFS 状态的 K-M 曲线。 D 圆形图展示 TCGA-BRCA 队列中乳腺癌各 ECM 簇在 ECIHigh 或 ECILow 组中的分布。 E 森林图展示单因素 Cox 回归分析中 ECI、N 分期、T 分期、年龄和分级的预测结果,用于预测训练队列患者 OS。 F 森林图展示多因素 Cox 回归分析中 ECI、N 分期、T 分期、年龄和分级的预测结果,用于预测训练队列患者 OS。 G 由 ECI、N 分期和年龄构建的列线图,展示预测训练队列患者 1 年、3 年和 5 年 OS 的准确性。 H 预测培训队列中 1 年总生存期的列线图校准曲线。 I 列线图及单个因素(包括列线图、ECI、N 分期和年龄)的 DCA 结果。 J 预测培训队列中患者总生存期状态的列线图 ROC 曲线绘制值。 K 预测测试队列中患者总生存期状态的列线图 ROC 曲线绘制值
研究发现,ECI 与训练队列中的总生存期(OS)和无病生存期(RFS)均显著相关(图2 B)。根据 ECI 中位数分层后发现,高 ECI(ECIHigh)患者与低 ECI(ECILow)患者相比,OS 和 RFS 均显著较差(图 4 B, C, S4 C, 和 S4D)。有趣的是,47.6%的 ECIHigh 患者被归类为 C2,而 59.3%的 ECILow 患者为 C1(图 3 A, 表 2 )。作者在训练队列中进行了单因素和多因素 Cox 回归分析,旨在识别与生存相关的因素。这些因素包括 ECI 和多个临床变量,如年龄、T 分期、N 分期和肿瘤分级。单因素分析显示,ECI、年龄、T 分期、N 分期和分级均与 OS 相关(图 4 E)。多因素分析进一步证实,ECI、年龄和 N 分期是显著因素(P < 0.001, 图 4 F)。
基于这些发现,作者构建了一个使用 ECI、年龄和 N 分期预测乳腺癌患者总生存期(OS)的列线图(图 4 G)。该列线图的 C 指数值在训练队列中为 0.861(95% CI = 0.852–0.872),在测试队列中为 0.711(95% CI = 0.678–0.741)。校准曲线显示了该列线图在预测 1 年生存率方面的准确性(图  4 H)。DCA 分析表明,ECI 的表现与列线图模型相似,但优于本研究中使用的其他预测指标(图  4 I)。使用列线图评分,作者在训练队列(图  4 F)和测试队列中观察到高评分(ScoreHigh)患者与低评分(ScoreLow)患者之间在 OS 上存在显著差异。该列线图模型在训练队列中预测 1 年、3 年和 5 年 OS 的 AUC 值均大于 0.88(图  4 J),在测试队列中为 0.74(图  4 K)。总之,作者成功建立了一个针对 ECM 簇特异性预后模型,该模型能够准确预测乳腺癌患者在一个元队列中的预后结果。
患有 C2 或 ECIHigh 高纤维母细胞浸润和免疫细胞浸润低的患者
为了深入探究 ECI(上皮间质转化)的生物基础及其与 ECM(细胞外基质)簇的关联,作者将注意力转向探索肿瘤微环境(TME)、ECM 簇和 ECI 之间的关系。因此,作者利用了多种去卷积算法,包括 Cibersort、EPIC、Estimate、IPS、MCP_counter、TIMER 和 xCell,来量化 TCGA 队列中的免疫浸润情况(图 5 A)。进一步使用 MCP_counter 分析显示,与其他 ECM 簇相比,C3 表现出 T 细胞、B 细胞和 NK 细胞等多种免疫细胞的浸润水平升高,而 C2 则显示出成纤维细胞浸润水平更高(图 5 B)。Mantel Testing 分析进一步表明,成纤维细胞浸润与上述免疫细胞之间存在负相关关系,其中 C2 对成纤维细胞浸润具有显著影响(图 5 C)。随后,作者考察了四个队列(TCGA、SCAN_B、Metabric 和 GEO)中 ECI 与 TME 成分之间的相关性,观察到 ECI 评分与多种免疫细胞类型之间存在负相关关系(图 5 D)。值得注意的是,Mantel Testing 分析也表明 ECI 对成纤维细胞浸润具有显著影响(图 5 E)。
基于 ECM 簇或 ECI 组的肿瘤微环境分析。A TCGA-BRCA 队列中 Cibersort、EPIC、Estimate、IPS、MCP_counter、TIMER 和 xCell 的 Heatmap 绘制结果。B 展示每个 ECM 簇中各种 TME 成分的 MCP_counter 分数的箱线图。Wilcox 检验,*:P < 0.05,**:P < 0.01,***:P < 0.001,****:P < 0.0001。C TCGA-BRCA 队列中每个 ECM 簇与 MCP_Counter 分数的 Mantel 检验结果的 Heatmap 绘制。D TCGA-BRCA、Metabric、SCAN_B 和 GEO 队列中 ECI 与 Cibersort、EPIC、Estimate、IPS、MCP_counter、TIMER、xCell 和 Tumor_score 相关性分析的 Heatmap 绘制结果。E TCGA-BRCA 队列中 ECI 组或 ECI 分数与 MCP_Counter 分数的 Mantel 检验结果的 Heatmap 绘制。F 展示每个 ECM 簇中 CCL19 表达水平的箱线图。 Wilcox 检验,*:P < 0.05,**:P < 0.01,***:P < 0.001,****:P < 0.0001。G 图表示每个 ECI 组中 CCL19 的表达水平。Wilcox 检验,*:P < 0.05,**:P < 0.01,***:P < 0.001,****:P < 0.0001。H 图表示各种 ECM 簇中每个 ECI 组中 CCL19 的表达水平。Wilcox 检验,*:P < 0.05,**:P < 0.01,***:P < 0.001,****:P < 0.0001。I 点图展示了 TCGA-BRCA、Metabric、SCAN_B 和 GEO 队列中 ECI 与 B_lineage_MCPconter 评分之间的相关性分析结果
随后,作者评估了 ECIHigh 和 ECILow 患者之间 ECI 基因的差异表达,发现只有碳酸酐酶 9(CA9)在 ECIHigh 组中过表达,而其他基因在 ECILow 组中表达更高(图 S5 A)。具体来说,当检查不同 ECM 簇中 ECI 基因的表达水平时(图 S5B),作者发现 CCL19 在 C2 簇中相对于其他 ECM 簇下调(图 5 G)。CCL19 在所有患者中的 ECIHigh 组中也表现出较低的表达(图 5 H)以及在每个 ECM 簇中(图 5 I)。有趣的是,ECI 在所有四个队列中均与 B 细胞浸润呈显著负相关(图 5 J)。鉴于 CD79 A 是 ECI 基因中变异重要性最高的基因之一,而 CD79 A 是 B 细胞标志物,作者假设成纤维细胞和 B 细胞可能在这一背景下发挥关键作用。
单细胞转录组分析确定 CFD+ 和 ANGPTL4+ 成纤维细胞是乳腺癌中 b 细胞的关键调节因子
为探索核心 ECI 基因在特定细胞类型中的表达情况,作者分析了 GSE161529 数据库的 scRNA-seq 数据。经过严格的质量控制和数据整合,作者从 31 名乳腺癌患者中保留了 210,293 个细胞用于进一步分析。作者的分析揭示了 ER、TNBC 和 HER2 患者样本中 36 个不同的细胞簇(图 S6 A、S6B 和表 S4)。在排除 34 号等低质量簇后,作者根据 CellMarker 2.0 网站将剩余细胞注释为十种细胞类型:上皮细胞、T 细胞、NK 细胞、B 细胞、浆细胞、髓系细胞、肥大细胞、内皮细胞、成纤维细胞和血管周样(PVL)(图 6 A)。每种细胞类型的细胞标志物表达水平如图 6 B 所示。值得注意的是,作者发现在 B 细胞和浆细胞中表达 CD79 A 和 RASGRP2,这两个基因被鉴定为 C3 特异性基因(图 S6 C)。此外,C3 特异性基因 CCL19 以及 C2 特异性基因 OGN 和 LAMA2 在成纤维细胞和 PVL 中表现出高表达水平(图 S6 C)。 这些发现与作者的先前批量 RNA 测序结果一致,支持成纤维细胞和 B 细胞在 ECM 驱动的乳腺癌进展中的作用。
乳腺癌患者的 scRNA-seq 分析。A UMAP 图显示 31 名乳腺癌患者的 10 种细胞类型和异常线,展示了 ER、HER2 或 TNBC 中每种细胞类型的百分比。B 点图显示每个细胞簇和细胞类型中细胞标志物的表达水平。C 点图显示每个细胞簇和细胞类型中 ECI 基因的表达水平。D UMAP 图显示 PVL、成纤维细胞和 B 细胞谱系重新聚类后的 9 种细胞类型。E 点图显示 PVL、成纤维细胞和 B 细胞谱系每个细胞簇和细胞类型中 ECI 基因的表达水平。F PVL、成纤维细胞和 B 细胞谱系每个细胞中 CCL19 表达的密度图。G UMAP 图显示基于 TCGA-BRCA 的批量 RNA-seq 数据,将每种细胞的表型与 ECM 簇关联。H UMAP 图显示基于 TCGA-BRCA 的批量 RNA-seq 数据,将每种细胞的表型与 ECI 组关联。 I PVL、成纤维细胞和 B 细胞谱系之间 MIF 通路配体-受体相互作用分析。 J PVL、成纤维细胞和 B 细胞谱系之间 CXCL 通路配体-受体相互作用分析。 K 展示 PVL、成纤维细胞和 B 细胞谱系之间不同 MIF 信号通路散点图。 L 展示 PVL、成纤维细胞和 B 细胞谱系之间不同 CXCL 信号通路散点图。 M 绘制 PVL、成纤维细胞和 B 细胞谱系之间 MIF 信号通路网络细胞相互作用的热图。 N 绘制 PVL、成纤维细胞和 B 细胞谱系之间 CXCL 信号通路网络细胞相互作用热图。
因此,作者选择了成纤维细胞、B 细胞和 PVL 进行进一步的亚群分析。经过重新聚类(图 S7 A,和表 S5),作者识别出 B 细胞和成纤维细胞的特定亚群,包括:i) 五个 B 细胞谱系亚群(B 细胞、IGHM 浆细胞、GNLY 浆细胞、IGLL5 浆细胞和 IGLC7 浆细胞),ii) 三个成纤维细胞亚群(COL1 A1 成纤维细胞、CFD 成纤维细胞和 ANGPTL4 成纤维细胞),以及 iii) PVL(图 6 D)。作者观察到唯一的风险因素 CA9 在 ANGPTL4 成纤维细胞中高度表达,而保护性 ECI 基因在其他细胞类型中表达(图 6 E)。具体而言,CFD 成纤维细胞仅表达 CCL19,该基因先前被发现与 C2 呈负相关(图 6 F)。
接下来,作者采用 Scissor 算法进一步探究 ECM 簇、ECI 和细胞类型之间的关系(Sun 等人 2022 )。利用 TCGA 队列的转录组结果,作者识别出与 ECM 簇(图 6 G)或 ECI 组(图 6 H)具有相似表达模式的细胞。正如预期,CFD 成纤维细胞表现出与非 C2(Non_C2)和 ECILow 不同的表型,而 COL1 A1 成纤维细胞和 ANGPTL4 成纤维细胞则与 C2 和 ECIHigh 表型相关(图 6 G 和 H)。随后,作者分析了这些细胞类型之间的配体-受体相互作用,揭示了多种相互作用通路(图 S7B)。作者的分析表明,ANGPTL4 成纤维细胞通过 MIF 通路调控 B 细胞谱系(图 6 I),而 CFD 成纤维细胞通过 CXCL 通路影响 B 细胞谱系(图 6 J)。具体而言,ANGPTL4 成纤维细胞和 CFD 成纤维细胞对 B 细胞具有较大影响(图 6 K 和 L),这些成纤维细胞被鉴定为 MIF 或 CXCL 信号通路的发送者,而 B 细胞和其他浆细胞则是主要的接收者和影响者(图 6 M 和 N)。 总的来说,这些发现表明成纤维细胞与 B 细胞谱系之间的相互作用在 ECM 驱动的乳腺癌进展中起着重要作用。
研究 CFD 和 ANGPTL4 在免疫治疗癌症患者结果中的作用
最终,作者的目标是检验成纤维细胞标志物(尤其是 CFD 和 ANGPTL4)与乳腺癌患者预后的相关性。在 TCGA 队列中,作者发现 CFD 与乳腺癌患者的总生存期(OS)显著相关(图 7 A)。此外,作者还注意到一个趋势,表明 ANGPTL4 表达升高可能对乳腺癌患者的 OS 产生积极影响(图 7 B)。鉴于成纤维细胞和 B 细胞谱系在免疫治疗反应中的作用已被报道,作者进一步使用 KM-Plotter 数据库探索了 CFD 和 ANGPTL4 与免疫治疗反应之间的关系(Pei 等人 2023 ;Engelhard 等人 2021 )。令人惊讶的是,作者的研究结果表明 CFD 增强了男性和女性患者的免疫治疗效果(图 7 C),而 ANGPTL4 似乎削弱了接受免疫治疗患者的治疗效果(图 7 D)。
研究 CFD 和 ANGPTL4 在影响乳腺癌及接受免疫治疗癌症患者生存状况中的作用。A 在 TCGA-BRCA 队列中绘制 CFDHigh 和 CFDLow 患者的总生存期(OS)和无病生存期(RFS)的 K-M 曲线。B 在 TCGA-BRCA 队列中绘制 ANGPTL4High 和 ANGPTL4Low 患者的总生存期(OS)和无病生存期(RFS)的 K-M 曲线。C 使用 KM-Plotter 数据库绘制接受免疫治疗的 CFDHigh 和 CFDLow 癌症患者的总生存期(OS)的 K-M 曲线。D 使用 KM-Plotter 数据库绘制接受免疫治疗的 ANGPTL4High 和 ANGPTL4Low 癌症患者的总生存期(OS)的 K-M 曲线

总结

作者成功识别了乳腺癌患者中独特的细胞外基质(ECM)簇,这些簇与患者生存结果密切相关。基于这些 ECM 簇,作者构建了一个有效的预后模型,并发现 ANGPTL4 的高表达可能会降低免疫疗法的疗效,而 CFD 则显示出增强免疫疗法反应的潜力。因此,针对 ANGPTL4 和 CFD 的靶向干预策略可能成为改善乳腺癌免疫疗法的新途径。例如,可以设计特异性抗体或小分子抑制剂来阻断 ANGPTL4 的功能,或利用 CFD 激动剂来增强患者的免疫反应。总之,作者的研究不仅提出了预测乳腺癌预后的新型生物标志物,也为乳腺癌免疫疗法开辟了新途径。未来研究应进一步阐明 ANGPTL4 和 CFD 在乳腺癌中的具体机制,并基于这些生物标志物开发临床检测方法和治疗策略,从而推动乳腺癌的精准医疗。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多