分享

最新非肿瘤单细胞+bulk测序+机器学习生信思路,学会SCI手到擒来!

 智汇基因 2022-11-22 发布于广东

导语

今天给同学们分享一篇单细胞和bulk RNA测序结合的生信文章“Identification and validation of a signature based on macrophage cell marker genes to predict recurrent miscarriage by integrated analysis of single-cell and bulk RNA-sequencing”,这篇文章于2022年11月11日发表在Frontiers in Immunology期刊上。复发性流产 (RM) 是一种慢性异质性自身免疫性疾病,目前尚未确定 RM 的有效且可靠的诊断标志物或治疗靶点。巨噬细胞影响先天免疫系统,可用作许多疾病的诊断和预后标志物。研究结果表明,ACTR2 和 NCSTN 可能是预防性 RM 治疗的潜在目标。

1. 正常和 RM 样本中母胎的单细胞图谱

作者使用 10× Genomics 从 5 名正常患者和 3 名 RM 患者中获得了 16 个人类早孕期蜕膜和绒毛样本,其中蜕膜和绒毛样本是从同一患者身上采集的(图 1A)。在使用 Seurat 包 进行计算质量控制和基于图的聚类之后,对 112528 个高质量细胞进行了进一步分析。这些细胞包括来自正常蜕膜的 36219 个细胞和来自 RM 蜕膜的 25582 个细胞,来自正常绒毛的 25303 个细胞和来自 RM 绒毛的 25424 个细胞。在使用 SingleR 软件进行基于图的无监督分析后,作者自动注释了细胞簇并根据已知标记基因和文献证据确定了 15 种细胞类型(包含 28 个集群),并定义了集群0 和 11 中的细胞作为巨噬细胞 (23, 25)(图 1B、C)。然后,作者提取了与 RM 免疫机制相关的 dNK 细胞、T 细胞、巨噬细胞、单核细胞和 B 细胞群,并根据已知标记基因的表达将它们重新分组以供进一步分析(图 1D、E)。

 图1 单细胞 RNA 测序分析鉴定母体胎儿界面标记基因

2. 差异表达巨噬细胞相关基因的鉴定及功能富集分析

为了研究巨噬细胞相关基因在 RM 发病机制中的作用,作者使用来自 GSE179996 队列的 24 个正常流产标本和 24 个复发性流产标本的表达谱进行后续分析。通过对 1,384 个巨噬细胞相关基因的单细胞测序筛选,共获得 1,293 个巨噬细胞相关标记基因,这些基因与 GSE179996 表达谱中的基因相交。GSE179996 数据集的差异表达分析显示,90 个巨噬细胞标记基因在疾病组中显着下调,96 个巨噬细胞标记基因显着上调(图 2A、B)。对这些差异表达的巨噬细胞相关基因的 GO 富集分析表明,它们影响蛋白质磷酸化的负调节、I 型干扰素信号通路和对病毒的免疫反应(图 2C)。这些差异表达基因的 KEGG 富集分析表明,涉及的主要信号通路是内吞作用、人巨细胞病毒感染、Apelin 信号通路和 Th17 细胞分化(图 2D)。

图2 巨噬细胞相关差异表达基因的鉴定

3. 使用机器学习筛选特征基因

作者使用三种机器学习算法(LASSO、随机森林和 SVM-RFE)用于筛选与 RM 进展相关的核心特征基因。对于 SVM-RFE,当包含 CD2AP、NCSTN、APPL1、ACTR2、PTMS、TBC1D12、ATF6、MBNL2、RPN2、MTMR6、MAFG 和 PUM1 的特征数为 12 时,分类器误差最小化(图 3A、B)。关于 LASSO 算法,十次交叉验证后最佳 lambda 为 0.004。使用与最低偏似然偏差对应的惩罚参数 (λ) 的值来选择 17 个特征基因:ACTR2、APPL1、ARL8A、ARMCX3、CD2AP、CSDE1、ITGB2、MBNL2、NCSTN、OAS1、PML、PTMS、PUM1、RPN2 、SLC43A3、SPPL2A 和 TBC1D12(图 3C)。使用随机森林算法识别出20个相对重要性>0.345的特征基因,包括NCSTN、RPN2、CD2AP、ACTR2、CISD2、ETF1、CSDE1、MBNL2、ARL8A、PUM1、NF1、BNIP2、BLOC1S1、ZFYVE16、USF2、ZSWIM6 SPG21、 TBC1D12、ARMCX3 和 CMIP(图 3D、E)。确定了来自 LASSO、随机森林和 SVM-RFE 算法的七个共享特征基因:ACTR2、CD2AP、MBNL2、NCSTN、PUM1、RPN2 和 TBC1D12(图 3F)。

图3 特征基因选择

4. RM 特征基因的诊断功效和外部验证

六个特征基因(ACTR2、CD2AP、MBNL2、PUM1、RPN2 和 TBC1D12)在 RM 样本中的表达水平明显较低,而 NCSTN 的表达水平明显较高(图 4A)。使用 AUC 值评估 GSE179996 队列中七个特征基因预测 RM 的诊断性能,ACTR2 为 0.986(图 4B),CD2AP 为 0.990(图 4C),MBNL2 为 0.908(图 4D),0.986 NCSTN(图 4E),PUM1 为 0.862(图 4F),RPN2 为 0.958(图 4G),TBC1D12 为 0.889(图 4H)。作者选择 GSE26787 数据集从外部验证这七个特征基因在复发性流产进展中的诊断价值,ACTR2 的 AUC 值为 0.880(图 5A),CD2AP 为 0.840(图 5B),MBNL2 为 0.720(图 5C) ),NCSTN 0.960(图 5D)为 0.960,PUM1 为 1.000(图 5E),RPN2 为 0.920(图 5F),TBC1D12 为 1.000(图 5G)。

图4 靶基因在 RM 预测中的诊断功效

图5 目标基因的RM预测值的外部验证

5. 特征基因表达的实验验证

为了验证涉及 RM 的特征基因的表达,收集了10 个健康人胎粪样本和 10 个来自复发性流产的胎粪样本用于临床标本验证。7 个特征基因的表达模式在 GSE165004 数据集和临床标本之间是一致的,进一步表明它们在预测 RM 进展方面具有良好的诊断价值(图 6)。

图6 ACTR2 在正常组织和 RM 组织之间的表达验证

6. 信号通路涉及特征基因

使用 ssGSEA 进一步研究了 RM 患者和健康对照之间在 50 个 HALLMARK 信号通路中的差异。RM 患者的两个 HALLMARK 信号通路显着上调:KRAS_SIGNALING_DN 和 BILE_ACID_METABOLISM(图 7A)。RM 患者中显着下调的途径包括:KRAS_SIGNALING_UP、ANGIOGENESIS、UV_RESPONSE_DN、MYC_TARGETS_V1、MTORC1_SIGNALING、UNFOLDED_PROTEIN_RESPONSE、APICAL_SURFACE、INTERFERON_ALPHA_RESPONSE、NOTCH_SIGNALING 和 TGF_BETA_SIGNALING(图 7A)。作者还分析了 7 个特征基因与 50 个 HALLMARK 信号通路的相关性。ACTR2 与许多基因相关,包括 NOTCH_SIGNALING、KRAS_SIGNALING_UP、INTERFERON_GAMMA_RESPONSE 和 ANGIOGENESIS。包括 ANGIOGENESIS 在内的几个 HALLMARK 信号通路与这些基因显着正相关(图 7B)。相反,NCSTN 与多个 HALLMARK 信号通路显着负相关,包括 UV_RESPONSE_DN、UNFOLDED_PROTEIN_RESPONSE、TGF_BETA_SIGNALING、KRAS_SIGNALING_UP 和 INTERFERON_GAMMA_RESPONSE(图 7B)

图7 关键基因与 50 条 HALLMARK 信号通路之间的相关性

为了更清楚地说明特征基因对 RM 进展的影响,作者进行了单基因 GSEA 富集分析。ACTR2 和 CD2AP 都参与补体和凝血级联反应、DNA 复制、Hedgehog 信号通路和蛋白质输出信号通路。受 RPN2 影响的信号通路主要包括基底细胞癌、补体和凝血级联反应、DNA 复制和蛋白质输出(图 8A、B)。MBNL2 参与以下信号通路:抗坏血酸和醛糖酸代谢、补体和凝血级联反应、DNA 复制和蛋白质输出(图 8C)。NCSTN 参与以下信号通路:脂肪酸生物合成、糖胺聚糖降解和矿物质吸收(图 8D)。PUM1 参与以下信号通路:DNA 复制、Hedgehog 信号通路和错配修复(图 8E)。RPN2 参与以下信号通路:基底细胞癌、补体和凝血级联反应、DNA 复制和蛋白质输出(图 8F);受 TBC1D12 影响的主要信号通路包括 β-丙氨酸代谢、补体和凝血级联反应、H 凝血级联反应和组氨酸代谢(图 8G)。

图8 GSEA 识别受目标基因影响的信号通路

7. 特征基因相互作用网络分析

为了评估特征基因之间的调控关系,作者构建了共表达网络和蛋白质相互作用网络。GSE165004 数据集用于分析特征基因之间的共表达关系。NCSTN 表达与其他六个特征基因呈负相关,而其他六个特征基因的表达水平彼此呈正相关(图 9A)。为了分析七个特征基因的蛋白质相互作用网络,作者使用 GeneMANIA 数据库创建了一个 PPI 网络(图 9B)。对 20 个基因进行 GO/KEGG 分析以进一步研究特征基因的功能,证明所有 20 个共表达基因主要参与 KEGG 信号通路(图 9C),包括内质网中的蛋白质加工,Epstein-Barr病毒感染、病毒arcinogenesis、上皮细胞的细菌入侵、细胞周期和 FoxO 信号通路(图 9D)。

图9 目标基因的共表达和相互作用分析

8. 用于预测 RM 的基于特征基因的线图的构建和测试

作者使用特征基因(ACTR2、CD2AP、MBNL2、NCSTN、PUM1、RPN2 和 TBC1D12)的“Rms”R 包构建了 RM 诊断柱线图模型(图 10A),并使用校准曲线评估了其预测能力。校准曲线显示真实和预测 RM 风险之间的差异很小,表明 RM 模型非常准确(图 10B)。DCA)表明患者可以从此类列线图图中受益(图 10C)。使用 ROC 曲线分析(图 10D)也证实了模型的正确性。

图10 RM诊断柱线图模型的构建与验证

9. 特征基因与 RM 患者免疫细胞浸润的关联

使用 ssGSEA 算法在 GSE165004 数据集中进一步研究了 RM 患者和健康对照之间免疫浸润的关联。当结果排除无统计学意义的免疫细胞类型时,与健康对照相比,RM 患者中的 Type_I_IFN_Reponse、Treg、Parainflammation、MHC_class_I 和巨噬细胞显着下调,而 T_helper_cells 在 RM 患者中显着上调(图 11A)。然后,作者分析了特征基因与免疫细胞和免疫相关功能之间的相关性。ACTR2 与 T_helper_cells 显着负相关,但与多种其他免疫细胞和免疫相关通路显着正相关(图 11B)。相反,NCSTN 与 T_helper_cells 呈显着正相关,与多种其他免疫细胞和免疫相关通路呈负相关(图 11B)。Treg 与 NCSTN 显着负相关,与其他 6 个特征基因显着正相关,T_helper_cells 与 NCSTN 显着正相关,与其他 6 个特征基因显着负相关,ACTR2 与巨噬细胞显着正相关,NCSTN 与巨噬细胞(图 11B)。

图11 关键基因与免疫的相关性

10. 使用 TISCH 数据库验证 ACTR2 和 NCSTN 表达

ACTR2 和 NCSTN 与 RM 患者的免疫浸润显着相关。当使用 TISCH 数据库分析单细胞水平的 33 种细胞类型中 ACTR2 和 NCSTN 的表达水平时,发现 ACTR2 和 NCSTN 在多个肿瘤数据集中的单细胞/大细胞中的表达水平最高(图 12, 13), 并在单细胞/大细胞中表达增加。ACTR2 在 CD8Tex、CD8T、DC、中性粒细胞、Tproli CD4Tconv、Treg、恶性细胞、内皮细胞、成纤维细胞、B、NK、Mas 和浆细胞中表达(图 12)。类似于 ACTR2,NCSTN 在恶性细胞、成纤维细胞、内皮细胞、Tprolif、CD8Tex、CD8T、CD4Tconv、Treg、DC、血浆、B 和 NK 细胞中具有更高的表达水平(图 13)。

图12 使用 TISCH scRNA seq 数据库的 ACTR2 分布

图13 使用 TISCH scRNA seq 数据库的 NCSTN 分布

11. 候选药物的鉴定

为了促进未来 RM 疗法的发展,作者使用 7 RM 关键基因进行了药物靶向富集分析。 伊立替康可以靶向四个 RM 关键基因(MBNL2、TBC1D12、PUM1 和 CD2AP),而其他六个候选基因(Alsterpaullone、喜树碱、氯唑沙宗、GW-8510、钾和 (-)-表没食子儿茶素)可以靶向 3 个不同的 RM 关键基因。其余 10 种候选药物(Verteporfin、Stropanthidin、Uranium、Azacitidine、Etifenin、Staurosporine、Neostigmine、Meclofenoxate、Captopril 和 Tyrphostin)可以靶向 2 个不同的 RM 关键基因,而临床上用于管理 RM 的常用药物环孢素可以靶向 MBNL2。

图14 候选药物的鉴定

总结

总之,作者使用可用作 RM 的巨噬细胞标记基因鉴定并验证了七个特征基因。其中,ACTR2与RM巨噬细胞浸润显着正相关,而NCSTN与RM巨噬细胞浸润显着负相关。这些候选基因之间的相互关系可能通过巨噬细胞调节影响 RM 进展。对单细胞感兴趣的老师,欢迎扫码咨询!

生信分析定制服务

请扫描下方二维码

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多