分享

8+机器学习+分型,一文剖析常见的双疾病搭配机器学习和分型的生信分析思路!!!

 智汇基因 2023-08-07 发布于广东

导语

今天给同学们分享一篇机器学习+分型的生信文章“Comprehensive bioinformatics analysis reveals the crosstalk genes and immune relationship between the systemic lupus erythematosus and venous thromboembolism”,这篇文章于2023年7月3日发表在Front Immunol期刊上,影响因子为8.786。

众所周知,系统性红斑狼疮(SLE)患者患有静脉血栓栓塞(VTE)的风险较高。本研究旨在初步确定SLE和VTE之间的相互作用基因,并探索它们的临床价值和分子机制。

1. VTE和SLE队列中的CGs鉴定

在SLE数据集GSE61635中,共鉴定出3321个差异表达基因(DEGs),其中包括2492个上调的DEGs和829个下调的DEGs(图1A)。在VTE数据集GSE19151中,共鉴定出768个DEGs,其中包括421个上调的DEGs和347个下调的DEGs(图1B)。如图1C所示的Venn图表明,SLE和VTE队列之间有171个重叠的共同基因(CGs)。表达矩阵的PCA分析表明,疾病组和对照组的样本分布在两侧明显可见(图1D)。热图显示了VTE和SLE队列中CGs的表达模式(图1E,F)。

图1 差异表达基因分析

2. CG的富集分析

进行了GO和KEGG富集分析以研究CGs的生物功能。结果表明,CGs主要富集在免疫和炎症途径中,包括B/T细胞受体信号通路、白细胞介素-2产生、T细胞分化、T细胞激活和趋化因子信号通路(图2A、B)。此外,VTE队列的GSVA结果显示,与VTE组相比,正常组主要富集了免疫和炎症途径,如调节适应性免疫应答、免疫应答的激活、趋化因子产生和自然杀伤细胞介导的免疫应答(图2C)。SLE队列的GSVA结果表明,与正常组相比,SLE组主要富集了免疫途径,包括B细胞激活的正调节、先天免疫应答的激活、肥大细胞激活和对趋化因子的反应(图2D)。这两种疾病的免疫应答模式似乎不同。还应用了GSEA评估了CGs所涉及的信号通路。结果表明,CGs与VTE中的免疫途径(TNF信号通路、B细胞受体信号通路和Th1/Th2/Th17细胞分化)呈负相关(图2E),与SLE中的免疫反应(TNF信号通路、IL-17信号通路和NOD样受体信号通路)呈正相关(图2F)。这些结果说明CGs参与了SLE和VTE中免疫功能的调节。

图2 功能富集和通路富集分析

3. 寻找最佳的共享诊断CGs

在GSE61635中,套索回归算法在最合适的λ=0.14下确定了八个诊断性CpG位点(图3A)。在GSE19151中,套索回归算法在最合适的λ=0.061下确定了七个诊断性CpG位点(图3B)。三个重叠的CpG位点(HSP90AB1、FPR2和RSAD2)被筛选为SLE和VTE的最佳共享诊断性CpG位点(图3C)。图3D-G展示了这三个候选生物标志物在SLE(GSE61635和GSE50772)和VTE数据集(GSE19151和GSE48000)中的差异基因表达模式。与对照组相比,FPR2和RSAD2在SLE组中上调,而HSP90AB1下调。与此同时,FPR2和HSP90AB1在VTE组中下调,而RSAD2上调。然后,作者使用ROC曲线验证了HSP90AB1、FPR2和RSAD2在SLE数据集和VTE数据集中的诊断效能,结果显示它们在疾病鉴定方面表现出强大的性能(图3H)。三个候选生物标志物的单变量逻辑回归分析也显示它们能够准确区分患者和健康个体(图3I)。

图3 潜在共享诊断CG的鉴定

4. 建立和验证SLE和VTE风险评分

在GSE61635和GSE19151中,三个变量之间的相关性在图4A中有所说明。在GSE61635中,HSP90AB1和FPR2之间的相关系数为0.75。作者认为这两个变量之间存在较高的多重共线性可能性。因此,作者移除了FPR2,并进一步将HSP90AB1和RSAD2纳入多元逻辑回归模型以建立预测分数(图4B)。回归结果表明,HSP90AB1在SLE和VTE中是一个独立的保护因子,而RSAD2则是一个独立的风险因子。在SLE和VTE队列中,校准图中的偏差校正线与理想曲线接近,表明预测模型具有良好的一致性(图4C)。SLE和VTE风险模型的C指数超过了单一单因素风险模型的C指数,这表明作者的风险评分对于预测这些疾病具有良好的效果(图4D)。图4E展示了两个风险评分的预测潜力,使用了ROC曲线。在GSE61635上,SLE风险评分的ROC曲线下面积(AUC)为0.98,而在GSE19151上,VTE风险评分的AUC为0.95。基于SLE和VTE风险评分分别构建了两个诊断图,为临床医生提供了量化预测疾病风险的方法(图4F,G)。此外,外部验证分析的结果也证明了这两个风险评分具有出色的预测性能。在GSE50772和GSE48000中,这两个风险评分的准确率、精确度、召回率和F-measure都超过了0.75(图5A,B)。基于外部数据的校准曲线(图5C,D)和ROC曲线(图5E,F)验证了它们可靠地预测疾病的性能。SLE和VTE联合数据集的ROC曲线表明这两个风险评分具有出色的性能。

图4 风险评分的构建

图5 VTE和SLE风险评分的外部验证

5. 关键基因的PPI网络

为了确定CGs的潜在相互作用,作者使用Cytoscape软件根据STRING数据库构建了一个PPI网络,整合了28个节点和64条边(图6A)。接下来,作者使用四种不同的拓扑分析方法(MCC、MNC、EPC和度)从CGs中提取了中心基因。这四种算法的结果都指向了五个中心CGs:MMP9、FOS、IGF1R、PIK3R1和CXCL8(图6B)。与相应的对照组相比,这五个中心CGs在外部数据集(GSE19151和GSE61635)和内部数据集(GSE48000和GSE50772)中都明显上/下调(图6C-F)。

图6 PPI网络和基因表达验证分析

6. VTE和SLE队列中免疫微环境的比较

为了进一步探索VTE和SLE队列中的免疫景观,使用CIBERSORT算法计算了每个样本中22种免疫细胞的百分比。在GSE61635中,大部分免疫细胞,如中性粒细胞、CD8 T细胞、幼稚CD4 T细胞、单核细胞、激活的CD4 T记忆细胞、静止的NK细胞、幼稚B细胞和滤泡辅助样T细胞,明显浸润在SLE组而不是正常组(图7A)。在GSE19151中,大部分免疫细胞,如单核细胞、调节性T细胞、激活的记忆CD4 T细胞、CD8 T细胞、幼稚CD4 T细胞、幼稚B细胞、静止的NK细胞和巨噬细胞,明显浸润在正常组而不是VTE组(图7B)。这些结果表明,SLE患者表现出免疫激活状态,而VTE患者则表现出免疫抑制状态。五个核心基因与SLE和VTE队列中多种免疫细胞浸润水平显著相关(图7C、D)。

图7 SLE和VTE的免疫浸润景观

7. 浸润免疫细胞与CG亚型之间的关联

为了初步研究SLE和VTE中CGs与免疫浸润的相关性,作者通过进行共识聚类分析分别确定了SLE和VTE中的CGs亚型。SLE的CGs亚型将GSE61635中的SLE患者分为C1和C2(图8A-C)。VTE的CGs亚型将GSE19151中的VTE患者分为C1和C2(图8D-F)。为了从细胞水平研究SLE和VTE不同CGs亚型之间的免疫特征多样性,作者比较了MCPcounter的八个浸润免疫细胞评分和CIBERSORT的27个浸润免疫细胞百分比在C1和C2聚类之间的差异。结果表明,无论是SLE的CGs亚型还是VTE的CGs亚型,C1亚型的大多数免疫细胞群体浸润水平较高。SLE的C1亚型表现出NK细胞、T细胞和CD8 T细胞的免疫浸润(图9A、B)。VTE的C1亚型显示了T细胞、CD8 T细胞、中性粒细胞和NK细胞的免疫浸润(图9C、D)。GSVA算法被应用于计算富集分数,limma软件包被用来识别不同亚型中明显不同的通路。SLE亚型的C1具有较高的免疫活化(免疫应答的活化,T和B细胞参与的免疫应答的活化,髓系白细胞介导的免疫等),相比之下,C2亚型较低(图9E)。VTE亚型的C1也具有较高的免疫活化(B细胞介导的免疫,免疫球蛋白的体细胞多样性,淋巴细胞介导的免疫调节,白细胞介导的免疫的正调节,B细胞参与的免疫应答的活化等),相比之下,C2亚型较低(图9F)。综上所述,共识聚类进一步展示了免疫浸润景观与CGs之间的潜在相互关联。在SLE和VTE中,C1聚类可以被视为免疫亚型,而C2聚类可以被视为非免疫亚型。

图8 共识聚类

图9 两种CG亚型与免疫细胞浸润的相关性

总结

作者确定了三个串扰基因(FPR2、RSAD2和HSP90AB1)作为有前景的诊断生物标志物,并分别基于它们构建了SLE和VTE风险模型。免疫浸润分析显示了CGs和免疫细胞之间的密切相关性。免疫反应可能在SLE和VTE之间的关联中起着重要作用。此外,作者基于CGs提出了两种新的SLE和VTE患者的分子分类,包括免疫和非免疫亚型。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章