分享

共病联合机器学习+单细胞,再补个PCR验证,拿下5+,这不香吗?

 智汇基因 2026-01-16 发布于广东

导语

结果:
3.1. T2DM DEG 的筛查
该研究的流动如图 1 所示。在 GSE184050 和 GSE21321 数据集中,分别识别出 3552 和 4489 个 2 型糖尿病患者与健康对照组的 DEGs。在 GSE184050 数据集中的 3552 个 DEG 中,分别有 2526 个和 1026 个被上调和下调( 图 2A)。此外,GSE21321 数据集中的 4489 个 DEG 中,分别有 2592 个和 1897 个被上调和下调( 见图 2B)。这两个数据集的交集包含 738 个共同的 DEGs( 图 2C),这些 DEG 对其进行了 KEGG 富集分析。结果显示,DEGs 主要富集于免疫相关通路,尤其是与 Th11、Th2 和 Th17 细胞分化相关的通路( 见图 2D)。
完整的学习流程。

T2DM 的 DEGs。(A,B)GSE184050 和 GSE21321 中 DEGs 火山图(p3C 0.05)。(C)GSE184050 和 GSE21321 中共享 DEG 的维恩图。(D) 共享 DEG 的 KEGG 浓缩分析气泡图。
3.2. COPD DEG 筛查
在GSE56676 和 GSE42057 数据集中,COPD 患者与健康对照组分别识别出 4149 例和 3448 例 DEGs。在 GSE56676 数据集中的 4149 个 DEG 中,分别有 1267 个和 2822 个被上调和下调(图 3A)。此外,GSE42057 数据集中的 3448 个 DEG 中,分别有 1348 个和 2100 个被上调和下调(图 3B)。这两个数据集的交集包含 1391 个共享的 DEGs(见图 3C),这些 DEG 被进行了 KEGG 富集分析。与 T2DM DEG 的 KEGG 富集分析结果一致,COPDDEG 主要富集于免疫相关通路,尤其是与 Th11、Th2 和 Th17 细胞分化相关的通路(见图 3D)。

慢性阻塞性肺病(COPD)的 DEGs。(A,B)GSE56676 和 GSE42057 中 DEGs 火山图(p3C 0.05)。(C)GSE56676 和 GSE42057 共享 DEG 的维恩图。(D) 共享 DEG 的 KEGG 浓缩分析结果气泡图。
3.3. WGCNA 的建立与模块分析
通过 WGCNA 识别了 T2DM 和 COPD 共享的 DEG 簇,并确定了组合模块与疾病特征之间的相关性。首先,为了确保生物学意义上的无尺度网络,基于 R2 尺度独立性> 0.85 和平均连接性收敛为 0、30 和 7,分别被选为 T2DM 和 COPD 数据集的最佳软阈值功率β(图 4A–D)。其次,在合并相似的基因模块后,T2DM 和 COPD 模型分别识别出五个和九个模块。灰色模与 T2DM 发生率的正相关最强(r=0.44),而棕色模组与 T2DM 发生率的负相关最强(r=-0.26)(见图 4E)。此外,在 COPD 建模集中,灰色模块与 COPD 的正相关最强(r=0.42),而粉色模块与 COPD 的负相关性最强(r=-0.35)(见图 4G)。这些模块可被视为与 T2DM 和 COPD 合并并发症密切相关的共表达基因模块。

构建加权共表达网络相关数据集,并识别 T2DM(GSE18405)和 COPD(GSE56676)相关关键模块。(A,B) 针对各种软阈值(β)的网络拓扑分析。左图显示了无尺度拟合指数(尺度无关,纵轴)随软阈度(x 轴)变化;右图显示了软阈值功率(x 轴)的平均连通性(度,纵轴)。(C,D) 通过平均链状层级聚类获得的基因树轮图。树轮图下方的彩色行显示了通过动态砍树方法确定的模块分配。(E,G) 模块-性状关系:热图中的每一行对应一个 ME,每一列对应一个临床特征。每个单元格都包含对应的相关性和 p 值。(F,H) 对共表达基因模块中所有基因的 KEGG 富集分析:T2DM 的灰色和棕色,COPD 的灰色和粉色。
T2DM 中灰色和棕色共表达基因模块以及 COPD 中灰色和粉色共表达基因模块中的所有基因都进行了 KEGG 富集分析。结果显示,无论是与 T2DM 还是 COPD 相关的 DEGs,主要富含与免疫相关的通路,尤其是与 Th1、Th2 和 Th17 细胞分化相关的通路,此外,除了关注细胞衰老(见图 4F,H),通过 GSVA 分析发现 T2DM 和 COPD 的细胞衰老评分均较低,因此作者关注免疫性。
3.4. 2 型糖尿病和慢性阻塞性肺病(COPD)共享的 DEGs
对 T2DM 和 COPD 共享基因的分析得到了 75 个 DEG(见图 5A),这些基因通过 R 中的 clusterProfiler 包进行了 Go 富集分析(见图 5B)。分析结果显示了 879 个 Go 词,包括 682 个生物过程(BPs)、101 个细胞成分(CCs)和 96 个分子功能(MFs)。核心基因主要富含 RNA 代谢过程,BPs 和 CCs 的核质,MFs 则在核酸结合中获得丰富。

T2DM 和 COPD 的 DEG 分析(A)T2DM 和 COPD 共享 DEG 的维恩图。(B,C)Go 和 KEGG 富集分析 T2DM 和 COPD 共享 DEGs。
75 个 DEG 还接受了 KEGG 通路分析,显示核心基因主要富含神经营养素信号通路、自然杀伤(NK)细胞介导的细胞毒性、Th1 和 Th2 细胞分化及其他免疫相关通路(见图 5C)。总体而言,T2DM 和 COPD 在许多分子机制上有许多共同作用,其中大多数与免疫密切相关,主要包括 Th1、Th2 和 Th17 细胞分化。
3.5. 潜在共享诊断基因的识别
对与 T2DM 和 COPD 相关的 75 个核心基因进一步进行了 LASSO 回归、SVM-RFE 和射频分析,以筛查疾病相关诊断标志物。经过 10 重交叉验证,针对 T2DM 诊断,LASSO 回归、SVM-RFE 和 RF 分别识别出 11、21 和 16 个核心基因(见图 6A–D)。另一方面,在 COPD 诊断中,LASSO 回归、SVM-RFE 和 RF 分别识别出 23、54 和 38 个核心基因(见图 6E–H)。诊断 T2DM 和 COPD 的共同核心基因被视为 T2DM 与 COPD 合并并发症的诊断标志。LASSO 回归与 SVM-RFE 的交汇揭示,Pescadillo 核糖体生物合成因子 1(PES1)是诊断标记基因,而 RF 和 SVM-RFE 的交汇包括七个诊断标志,包括 Calnexin(CANX)、二羰基和 L-木糖糖还原酶(DCXR)、戊二酰辅酶 A 脱氢酶(GCDH)、NOP2 核仁蛋白(NOP2)、磷脂酰肌醇-5-磷酸 4-激酶 2 型β(PIP4K2B)、精瓜胺合酶(SRM)和硫酸酶修饰因子(SUMF2)(图 6I,J)。

通过机器学习方法筛查 T2DM 和 COPD 的核心基因。(A,B) 通过 LASSO 回归算法识别的 T2DM GSE18405 诊断标志物。(C,D) 通过 SVM-RFE 和射频识别的 T2DM GSE18405 诊断标志物。通过 LASSO 回归算法识别 COPD GSE56676 的(E、F) 诊断标志物。(G,H)SVM-RFE 和射频识别的 COPD诊断 GSE18405 标志物。(一) 通过 LASSO 和 SVM-RFE 识别的 PES1 维恩图,该基因是 T2DM 和 COPD 的核心基因。(J) 通过射频和 SVM-RFE 识别的七个 T2DM 和 COPD 核心基因的维恩图,包括 CANX、DCXR、GCDH、NOP2、PIP4K2B、SRM 和 SUMF2。
随后分析了这两个疾病数据集中这些基因的表达水平(见图 7A、B)。结果显示,T2DM 和 COPD 模型的基因表达水平与健康对照组不同。具体来说,T2DM 和 COPD 模型中的大多数诊断标志基因表达水平低于健康对照组。此外,诊断指标的 ROC 曲线在 R Studio 中绘制以确定其诊断值,显示筛查的八个诊断标志在疾病分类中表现出显著的诊断价值(见图 7C、D)。

识别 T2DM 和 COPD 的核心基因。(A,B)PES1、CANX、DCXR、GCDH、NOP2、PIP4K2B、SRM 和 SUMF2 在 GSE18405 和 SUMF2 方面均有显著差异 GSE56676。(C,D) 八个核心基因的 ROC 曲线。(E) 对患者及健康对照组 PBMC 中 PES1、CANX、DCXR、GCDH、NOP2、PIP4K2B、SRM 和 SUMF2 的 mRNA 表达水平进行实时荧光定量 PCR 分析。
此外,还采集了 65 名个体的新鲜全血样本(其中包括 25 名健康个体,其中 15 名来自 T2DM 患者和 15 名 COPD 患者,10 名 T2DM 患者与 COPD 患者联合)。随后提取 PBMCs 并使用 RT-qPCR 进一步确认患者样本中鉴定基因的差异表达。结果显示,PES1、CANX、SUMF2 和 DCXR 的表达趋势与上述预测一致,尤其是 SUMF2,不仅在 T2DM 和 COPD 患者中有所减少,且在有共病的患者中与健康对照组相比显著减少。与此同时,作者发现一个有趣的现象:除 NOP2 外,所有基因的表达水平在 COPD 患者中显著高于 T2DM 患者(图 7E)。
3.6. 免疫细胞相关分析
根据 GSEA 结果,在 T2DM 中,除中央记忆 CD8 T 细胞、活化 CD4 T 细胞、1 型 T 辅助细胞、2 型 T 辅助细胞和浆细胞样树突状细胞外,两组间无其他免疫细胞数量有显著差异(见图 8A、C)。值得注意的是,大多数 COPD 组的免疫细胞含量高于对照组。具体来说,13/28 个免疫细胞(活化 CD8 T 细胞、中枢记忆 CD8 T 细胞、中枢记忆 CD4 T 细胞、1 型 T 辅助细胞、活化 B 细胞、未成熟 B 细胞、骨髓系来源抑制细胞、活化树突状细胞、巨噬细胞、嗜酸性粒细胞、肥大细胞、单核细胞和中性粒细胞)在两组之间表现出显著差异(图 8B,D )。),其中中枢记忆 CD8 T 细胞和 1 型 T 辅助细胞的水平差异更为显著。同时,分析了免疫细胞与四个核心诊断基因之间的相关性,发现 PES1、CANX 和 SUMF2 表达与 T2DM 和 COPD 组大多数免疫细胞密切相关(见图 8E、F)。

在同时患有 T2DM 和 COPD 的病例中,28 个免疫细胞和 4 个核心基因的相关分析。(A,B)28 个免疫细胞表达评分热图,适用于 T2DM 和 COPD。(C,D) 比较 Ctrl 和 T2DM 样本中 28 个免疫细胞评分,以及 Ctrl 和 COPD 样本。(E,F) 对 2 型糖尿病患者和 COPD 患者中 4 个共同核心基因与 28 个免疫细胞的 Spearman 相关分析(*p <0.05 和**p,***p <0.01 对对照组)。
3.7. 单细胞转录组数据中共享 DEGs 的表达水平
首先,从 NCBI GEO 数据库下载了 T2DM 和 COPD 单细胞测序数据集,均为小鼠样本,GSE216886 T2DM 和 COPD的 GSE205078。随后进行了归一化、尺度调整、聚类及高度变异基因筛选。随后,基于这 2000 个高度变异基因的 umap 生成了一个降维聚类二维图谱(图 9A 、B)。还生成了 T2DM 和 COPD 共享的四个 DEG 细胞簇表达图谱(图 9C–F)。此外,Kruskal-Wallis 检测还验证了不同免疫细胞中 T2DM 和 COPD 共有的 DEG 表达水平,尽管 SUMF2 在免疫细胞中表达较低,但结合图 7E 的 RT-qPCR 数据与 COPD 患者结合,发现与健康个体相比, 仅 SUMF2 的表达水平在统计学上存在差异(见图 9G)。SUMF2 在 COPD 和 T2DM 组的 T 细胞中均被下调(见图 9H),这与作者以往所有人类血液验证结果一致。

分析小鼠单细胞转录组数据集(GSE216886、GSE212726 和 GSE205078)中 PES1、CANX、SUMF2 和 DCXR 的表达水平。(A, B) 在三组单细胞转录组数据集中识别出的 11 种主要细胞类型的 t 分布随机邻居嵌入(t-SNE)。(C–F)PES1、CANX、SUMF2 和 DCXR 表达的 t-SNE 图谱。(G) 气泡图显示不同细胞类型中 PES1、CANX、SUMF2 和 DCXR 的表达。每个点的大小代表表达式的百分比;平均表达用颜色表示。(H) 单细胞转录组数据,显示 CANX 在 T2DM 和 COPD 中 11 种主要免疫细胞类型中的表达。

总结

据作者所知,这是首个利用生物信息学分析探讨 T2DM 和 COPD 的共同通路及遗传诊断标志的研究。作者的研究结果表明,T 细胞相关通路可能与 T2DM 和 COPD 的发病机制相关,SUMF2 是 T2DM 与 COPD 联合的潜在诊断标志。此外,作者的免疫浸润相关分析显示,T2DM 和 COPD 的发病机制可能与先天免疫失衡密切相关。总体而言,本研究为探讨 T2DM 与 COPD 合并发病机制提供了新颖视角。尽管如此,仍需更多涉及体外和体内实验的研究,以进一步探讨 T 细胞相关通路及 SUMF2 表达变化的机制。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章