在筛选 GEO 微阵列数据集后,作者保留了四个数据集: GSE24206 、 GSE35145 、 GSE53845 和 GSE68239 ( Figure 2A)。这些数据集被合并以创建内部数据集。箱线图展示了差异的分布情况,并确认了内部数据集的标准化( Figure 2B)。主要密度研究的结果表明,在排除批次效应后,内部数据集具有高度一致性( Figures 2C, D)。此外,UMAP 图展示了在消除批次效应后,不同数据集的数据分布趋于一致( Figures 2E, F)。差异表达基因(DEG)数据集收集与预处理。(A)收集数据集的详细信息。(B)标准化微阵列数据的箱线图。(C、D)密度图展示了排批次效应前后样本分布的差异。(E、F)UMAP 可视化展示了排批次效应前后样本的聚类情况。差异表达基因(DEG)的鉴定及 DEG 的功能和通路富集分析使用“limma”软件包对 IPF 和正常对照组的 RNA 样本中的差异基因(DEGs)进行分析,共鉴定出 92 个 DEGs,其中 41 个基因下调,51 个基因上调。根据 1.5 倍变化标准(Figure 3A)生成了火山图。 Figure 3B展示了 DEGs 的熱圖。为研究这些基因的潜在功能,使用 R clusterProfiler 包进行了 GO 和 KEGG 富集通路分析。KEGG 分析显示,DEGs 富集在以下通路中:细胞因子-细胞因子受体相互作用、造血细胞谱系和矿物质吸收( Figure 3C)。GO-BP 分析( Figure 3D)显示在免疫系统过程、免疫反应、金属离子稳态和阳离子稳态中存在显著富集。在 GO-CC 分析( Figure 3E)中,观察到在细胞外基质、细胞表面和细胞外空间中存在富集。此外,GO-MF 富集分析( Figure 3F)显示纤连蛋白结合、Wnt 蛋白结合、白细胞介素-1 受体活性和转化生长因子β激活受体活性。这些结果表明 DEGs 在 IPF 中发挥关键作用,值得进一步研究。DEGs 的功能与通路富集分析。(A) DEGs 的火山图:蓝色节点表示在 IPF 中下调,红色节点表示上调,灰色节点表示与对照组无显著差异。(B) 92 个 IPF 相关 DEGs 的 heatmap。(C) GO 分子功能通路。(D) GO 生物学过程通路。(E) GO 细胞组分通路。(F) GO 分子功能通路。由于免疫细胞在纤维化的发生和发展中起着关键作用,作者分析了免疫细胞浸润情况。分层直方图展示了每个样本中 22 种免疫细胞的丰度分布 ( Figure 4A)。不同类型的免疫细胞用不同的颜色表示,每种颜色的柱高代表该类型细胞的占比。 Figure 4B显示了 10 种不同免疫细胞标志物的表达水平存在显著差异。在 IPF 组中,六种免疫细胞标志物(记忆 B 细胞、滤泡辅助性 T 细胞、活化 NK 细胞、M1 巨噬细胞、静息树突状细胞和静息肥大细胞)的表达水平显著上调。同时,与对照组相比,浆细胞、静息 NK 细胞、M1 巨噬细胞和中性粒细胞的表达水平有所降低。(A)堆叠直方图比较 IPF 组和对照组样本中免疫细胞的百分比。(B) 箱线图显示 22 种免疫细胞类型的丰度。为了深入研究关键基因,作者选择了软阈值 4 ( Figure 5A),利用 WGCNA 技术开发了基因共表达网络,并识别出与 IPF 最密切相关的模块 ( Figure 5B)。总共获得了 11 个基因模块,其中黄色模块与 IPF 存在显著相关性(相关系数=0.63,p < 0.001)( Figure 5C)。黄色模块被确定为关键模块,包含 291 个基因。 Figure 5D展示了黄色模块中模块特征基因的散点图。(A)选择 4 作为合适的软阈值,构建了无标度共表达网络。(B) 树状图的分支对应 11 个基因模块。(C) 每个模块与 IPF 之间的相关系数及对应 p 值。(D) 黄色模块中模块特征基因的散点图。识别铜死亡相关核心基因及在 IPF 专注型诊断中的性能作者从先前研究中识别出 2,978 个 CRGs( 13 )。从 GeneCards 中提取了 2,181 个 CRGs,经过取中位数后获得了 1,090 个基因。在合并这两个基因集并去除重复项后,最终得到 3,538 个 CRGs。通过交叉分析 DEGs、CRGs 和 WGCNA 模型获得的候选基因,确定了五个铜死亡相关核心基因(NUDT16、FMO5、CFH、HDC 和 STEAP1)(Figure 6A)。 Figure 6B展示了核心基因在比较 IPF 样本与正常样本时的综合表达模式。CFH、HDC 和 STEAP1 在 IPF 中表达显著,而 NUDT16 和 FMO5 在 IPF 组中的表达降低(所有 p < 0.001)。ROC 曲线显示 NUDT16 的 AUROC 为 0.92(95% CI = 0.86–0.98),灵敏度和特异度分别为 0.79 和 0.92( Figures 6C, H)。FMO5 的 AUROC 为 0.90(95% CI = 0.81–0.98),灵敏度和特异度为 0.86 和 0.86( Figures 6D, H)。CFH 在 IPF 诊断中的 AUROC 为 0.87(95% CI = 0.80–0.95),灵敏度和特异度分别为 0.96 和 0.65( Figures 6E, H)。HDC 的 AUROC 为 0.86(95% CI = 0.77–0.94),灵敏度和特异度为 0.86 和 0.75( Figures 6F, H)。STEAP1 的灵敏度、特异度和 AUROC 分别为 0.86、0.68 和 0.78(95% CI = 0.70–0.88)( Figures 6G, H)。(A)显示三个算法获得的诊断标记交集的维恩图。五个核心基因在验证集中诊断 IPF 的性能。(B) IPF 组和对照组中五个核心基因的表达差异。(C–G) IPF 组和对照组中五个核心基因的 ROC 曲线。(H) 五个核心基因在区分 IPF 组和对照组中的诊断价值。(I) 五个核心基因之间的相关性。PPV,阳性预测值;NPV,阴性预测值;AUROC,受试者工作特征曲线下面积。 **** p < 0.0001。作者还对五个核心基因( Figure 6I)进行了相关性分析。结果表明,NUDT16 仅与 FMO5 呈正相关(r = 0.70,p < 0.001),与 HDC 呈显著负相关(r = 0.65,p < 0.001),并与 CFH(r = 0.56,p < 0.001)和 STEAP1(r = 0.45,p < 0.001)呈中度负相关。FMO5 与 CFH(r = 0.60,p < 0.001)、HDC(r = 0.62,p < 0.001)和 STEAP1(r = 0.66,p < 0.001)呈负相关。HDC 与 STEAP1 呈中度正相关(r = 0.43,p < 0.001)。总的来说,结果表明这五个基因之间高度相关。hub 基因在验证集中诊断 IPF 的性能和免疫组化结果验证集(GSE70866 )中这五个基因的诊断效果也非常好( Figure 7)。验证组包括肺泡灌洗液标本,共 196 份,其中 176 份来自 IPF 患者。 Figure 7A显示,CFH、HDC 和 STEAP1(均 p < 0.001)在 IPF 中显著过表达,AUROC 分别为 0.73(95% CI = 0.62–0.85)、0.77(95% CI = 0.66–0.88)和 0.75(95% CI = 0.68–0.83)( Figures 7D, F)。然而,与对照相比,IPF 组的 NUDT16(p = 0.05)和 FMO5(p < 0.001)表达显著降低。这些基因的 AUROC 分别为 0.63(95% CI = 0.55–0.71)和 0.79(95% CI = 0.70–0.87)( Figures 7B, C),与作者之前获得的表达结果一致。五个核心基因在验证集中诊断 IPF 的性能。(A) IPF 组和对照组五个核心基因的表达差异。(B–F) IPF 组和对照组五个核心基因的 ROC 曲线。(G) 四个核心基因在区分 IPF 组和对照组中的诊断价值。PPV,阳性预测值;NPV,阴性预测值;AUROC,受试者工作特征曲线下面积。并非巧合,IPF 和正常组织的免疫组化结果也显示相似。免疫组化(IHC)分析显示,在 IPF 组中 CFH、STEAP1 和 HDC 呈阳性表达(所有 p < 0.01),而对照组中 FMO5 表达上调(p < 0.05)(Figures 8A, B)。遗憾的是,作者没有检测到 NUDT16 的表达。(A)CFH、STEAP1、HDC 和 FMO5 在肺组织中的免疫组化染色代表性图像。(B) CFH、STEAP1、HDC 和 FMO5 的面积。 * p < 0.05; ** p < 0.001。首先,作者从“Immport Shared Data”中提取了 1,793 个与 IPF 相关的免疫基因。如表 Figure 9A所示,在将 92 个 DEGs 与 1,793 个 IRGs 进行交集后,筛选出了 24 个 DEIRGs。在 KEGG 分析(表 Figure 9B)中,最富集的通路包括细胞因子-细胞因子受体相互作用、神经活性通路和配体-受体相互作用,以及病毒蛋白与细胞因子-细胞因子受体的相互作用等。(A)交集图显示从差异表达基因(DEGs)和免疫相关基因(IRGs)中获得的诊断标志物的交集。(B) 顶部 10 个 KEGG 通路。(C) 顶部 10 个基因本体(GO)生物学过程通路。(D) 顶部 10 个 GO 细胞组分通路。(E) 顶部 10 个 GO 分子功能通路。在 GO-BP 分析(Figure 9C)中,主要通路包括对刺激的反应调控、防御反应和免疫反应。GO-CC 富集分析( Figure 9D)的结果显示富集于细胞外区域、质膜的完整组分等。GO-MF 分析( Figure 9E)表明主要通路包括信号受体活性和细胞因子结合等。作者使用 STRING 在线网站进行 PPI 网络分析。总共获得了一个包含 15 个节点和 23 条边的 PPI 网络。其中两个基因与其他分子无关联,未能形成分子网络。总共获得了一个包含 15 个节点和 23 条边的 PPI 网络( Figure 10A)。该网络使用标准阈值配置(相互作用评分 > 0.4)。使用 Cytoscpe 插件 CytoNCA 识别核心基因。根据前四个评分( Figure 10B)选择了核心基因(CXCL12、CXCR2、CTSG、SPP1)。 Figure 10C显示了这四个核心基因在训练集中对 IPF 诊断的值。CXCL12、CTSG 和 SPP1 在 IPF 组中显著上调,而 CXCR2 在正常组中高表达。此外,AUROC 值分别为 0.92(95% CI = 0.86–0.97)( Figures 10D, H)、0.74(95% CI = 0.64–0.85)( Figures 10E, H)、0.79(95% CI = 0.70–0.88)( Figures 10F, H)和 0.71(95% CI = 0.59–0.82)( Figures 10G, H)。CXCL12 成为与 IPF 关联最强的基因。(A)展示 15 个免疫相关基因相互作用的 PPI 网络。(B) 使用 CytoNCA 插件进行 Cytoscape 分析,识别枢纽基因及其表达差异。(C) IPF 组和对照组中四个枢纽基因的表达差异。(D–G) IPF 组和对照组中四个枢纽基因的 ROC 曲线。(H) 四个枢纽基因在区分 IPF 组和对照组中的诊断价值。PPV,阳性预测值;NPV,阴性预测值;AUROC,受试者工作特征曲线下面积。四个人物基因与免疫细胞的关联性显示在Figure 11A中。CXCL12 与五种细胞类型显著相关,包括与中性粒细胞显著负相关(r = − 0.64,p < 0.001)和与静息肥大细胞显著正相关(r = 0.47,p < 0.001)。CXCR2 与中性粒细胞之间观察到的唯一显著关联是(r = 0.66,p < 0.001)。CTSG 与三种免疫细胞之间存在负相关关系,其中与中性粒细胞的相关性最为显著(r = − 0.39,p < 0.001),并且仅与滤泡辅助性 T 细胞正相关(r = 0.33,p < 0.001)。SPP1 与三种免疫细胞显著正相关,与两种免疫细胞负相关。最强的相关性是与巨噬细胞_M0(r = 0.58,p < 0.001)。同时,作者发现这四个人物基因之间存在轻微的关联( Figure 11B)。(A)免疫相关核心基因与免疫细胞丰度的矩阵相关性。(B) 四个核心基因之间的相关性分析。 *** p < 0.001; **** p < 0.0001。在验证集(GSE70866 )中,基因 CXCL12、CTSG 和 SPP1 的表达水平与实验集( Figure 12A)中的一致;然而,作者遗憾地未能检测到 CXCR2 的表达。这三个基因的诊断效果也取得了优异的结果。CXCL12 的 AUROC 为 0.66(95% CI = 0.56–0.76),灵敏度和特异性分别为 0.45 和 0.95( Figures 12B, E)。对于 CTSG,AUROC 为 0.65(95% CI = 0.52–0.79),灵敏度和特异性为 0.96 和 0.35( Figures 12C, E)。SPP1 在 IPF 诊断中的 AUROC 为 0.96(95% CI = 0.39–0.99),灵敏度和特异性分别为 0.94 和 0.90( Figures 12D, E)。作者采用免疫组化方法检测了 IPF 和正常组织中四个基因的表达谱。结果显示,CXCL12、CTSG 和 SPP1 在 IPF 组织中显著上调,而 CXCR2 在正常组织中表达更高,这与作者的分析结果一致( Figures 12F, G)。(A)IPF 组和对照组五个核心基因的表达差异。(B–E) IPF 组和对照组四个核心基因的 ROC 曲线。(F) 肺组织中 CXCL12、CTSG、CXCR2 和 SPP1 的免疫组化代表性图像。(G) 四个核心基因的面积。PPV,阳性预测值;NPV,阴性预测值;AUROC,受试者工作特征曲线下面积。 * p < 0.05; ** p < 0.01; *** p < 0.001。预测单细胞 RNA 测序谱中免疫相关核心基因的表达在本研究中,共收集了八份肺组织样本,包括五例经肺移植治疗的 IPF 诊断病例和三例接受肺结节手术但最终被确定为良性的病例。使用 10× Genomics 平台对肺组织细胞悬液进行测序后,共获得 90,722 个单细胞高质量数据点。经过质量控制和筛选后,75,613 个细胞用于后续分析(Table 1)。在考虑样本间的批次效应后,识别出 26 种不同的细胞群体( Figure 13A)。基于先前研究中关于经典细胞标志物的研究,这 26 个细胞簇被归类为 11 种不同的细胞类型( Figure 13B)。包括上皮细胞、内皮细胞亚群(ECs)、成纤维细胞、肌层细胞、增殖细胞、B 细胞、浆细胞、T 细胞和 NK 细胞、中性粒细胞、肥大细胞和单核吞噬细胞(MPs)。 Figures 13C–F展示了免疫相关核心基因在不同样本中的表达情况,通过小提琴图表示细胞群体。(A)26 个细胞簇中所有细胞的 UMAP 图。(B) 显示两组细胞类型的 UMAP 图。(C) IPF 组和正常组的 CXCL12 基因表达。(D) IPF 组和正常组的 CXCR2 基因表达。(E) IPF 组和正常组的 CTSG 基因表达。(F) IPF 组和正常组的 SPP1 基因表达。 总结 本研究证实 IPF 的发生可能与铜死亡相关,并确定了五个关键相关基因(CFH、STEAP1、HDC、NUDT16 和 FMO5)。此外,作者发现 IPF 与免疫细胞之间存在强关联,从而确定了四个重要基因(FMO5、CFH、HDC 和 STEAP1)。单细胞测序结果进一步阐明了它们在相关细胞簇中的表达。因此,这些选定的基因可能作为未来 IPF 研究的潜在生物标志物和治疗靶点。 。
|