分享

机器学习能发17分?来篇高分生信思路解读!

 智汇基因 2022-08-19 发布于广东

导语

今天给同学们分享一篇机器学习联合免疫治疗的生信分析文章“Network-based machine learning approach to predict immunotherapy response in cancer patients”,这篇文章于2022年6月8日发布在Nat Commun期刊上,影响因子为17.694。在这项研究中,作者提供了一种方法来揭示ICI(免疫检查点抑制剂)治疗患者的生物标志物,帮助先前确定的生物标志物改善对ICI反应的预测。

1. 基于网络的免疫治疗反应预测概述

作者之前的工作支持与抗癌药物反应相关的生物标志物位于PPI生信分析中的药物靶点附近。简而言之,作者发现与治疗效果相关的生物标志物可以从患者衍生的类器官模型中识别出来,这些模型可以预测5-氟尿嘧啶治疗的结直肠癌和顺铂治疗的膀胱癌患者的药物反应。作者旨在通过选择接近ICI目标的途径来识别与ICI反应相关的生物途径(图1a,b)。作者使用了STRING-PPI生信分析,包括16,957个节点和420381个边。首先,作者应用网络传播,使用ICI目标作为种子基因,以在网络上传播ICI目标的影响(图1a)。网络传播的一个特征是更接近ICI目标的节点的影响分数更高。接下来,作者选择了具有高影响分数的基因,并确定了富含这些基因的生物途径(图1b)。然后,作者使用选定的生物途径来预测免疫治疗反应,并将这些途径视为基于网络的生物标志物(NetBio)。

图1一种基于网络的机器学习(ML)方法,用于识别免疫治疗相关的生物标志物

为了进行基于ML的免疫治疗反应预测,作者使用NetBio作为输入特征,作为阴性对照,作者使用了基于基因的生物标志物、基于肿瘤微环境的生物标志物或从数据驱动的ML方法中选择的途径(图1c)。使用输入特征的表达水平,作者应用逻辑回归来训练ML模型。为了测试输入特征的预测性能,作者测量了预测(i)通过免疫治疗后肿瘤尺寸减小测量的药物反应或(ii)患者存活率的性能。为了使用监督学习来训练ML模型,作者使用了训练和测试生信分析数据集的不同组合来广泛测量预测性能的一致性。具体来说,作者进行了(i)研究内预测,其中训练和测试生信分析数据集是从单个队列生成的,或(ii)跨研究预测,其中两个独立的数据集用作训练和测试数据集(图1d)。此外,作者交替使用大量或少量的训练样本来衡量各种训练条件下预测性能的一致性。

2. 基于NetBio的ML可以对ICI治疗反应和总生存期做出一致的预测

作者的NetBio的转录组可以做出一致的预测性能来预测ICI响应(图2)。相比之下,作者观察到在使用药物靶点的表达时,预测性能不太强。作者首先进行了交叉验证(LOOCV),以使用NetBio或其他已知的免疫治疗相关生物标志物来测量性能。为此,作者使用了四个免疫治疗队列——两个黑色素瘤队列、一个转移性胃癌队列和一个膀胱癌队列(IMvigor21030)。使用作者的NetBio训练的ML模型在所有四个生信分析数据集中始终做出准确的预测(图2a-d)。相比之下,使用药物靶点的表达水平做出的预测不太一致,其中药物靶点仅在黑色素瘤队列(图2a)中准确预测,而在其他三个癌症队列中则不准确(图2b-d)。值得注意的是,使用药物靶点表达水平的预测在生信分析数据集中是反向预测的(图2b)。此外,在三个生信分析数据集中使用作者基于NetBio的ML预测为ICI反应者的患者持续观察到延长的总生存期,这些数据集提供了总生存期数据,使用药物靶点表达仅在一个数据集中预测了总体存活率(图2e-g)。同样,作者发现基于NetBio的LOOCV能够准确预测Gide和生信分析数据集中的无进展生存期(PFS)。相比之下,基于药物靶点的预测在预测PFS方面不太一致。作者还根据PD1和CTLA4的组合表达谱计算了生信分析数据集中药物反应、总生存期和PFS的预测。结果表明,PD1和CTLA4联合表达水平不能预测免疫治疗反应、总生存期或PFS。总之,作者的数据表明,基于网络的方法将生物标志物扩展到药物靶标的网络邻居,改进了基于药物靶标表达水平的预测。

图2 预测免疫治疗患者的药物反应和总生存期

3. 使用基于NetBio的ML的跨研究预测可以在其他独立的黑色素瘤数据集中做出一致的预测

准确的ML模型的关键方面包括:(i)其泛化到新数据集的能力,以及(ii)在可用的训练样本很少时其一致的性能。首先,作者观察到使用NetBio训练的ML模型在使用独立生信分析数据集时可以做出稳健的预测,而在使用其他生物标志物时预测性能较差(图3)。为了测试作者的ML模型的普遍性,作者使用了Gide等人的黑色素瘤生信分析数据集。训练ML模型并在三个独立的黑色素瘤生信分析数据集中测试预测性能(图3a)。为了计算作者模型的性能,作者使用了逻辑回归模型的预测概率。作者选择ROC曲线的曲线下面积(AUC)作为性能指标。基于NetBio的ML在两个外部生信分析数据集中显示AUC>0.7(图3b,c),其余数据集中为0.69(图3d)。与基于NetBio的ML相比,使用其他生物标志物的预测显示出高度不同的预测性能(图3b-d)。例如,PD-1表达表现出较少的最佳性能,最大AUC仅达到0.66(图3b-d)。此外,尽管在Auslander和Riaz生信分析数据集中使用T细胞衰竭标记的预测非常准确(图3b,d),但预测性能略好于Prat数据集中的随机预期(图3c)。作者还观察到,当三个独立的训练生信分析数据集组合成一个数据集时,基于NetBio的预测性能优于其他方法,突出了作者基于网络的方法的稳健性。

图3 三个独立黑色素瘤数据集的预测性能

4. 基于NetBio的预测优于其他最先进的药物反应预测方法

接下来,作者将基于NetBio的预测与其他最先进的免疫治疗反应预测方法以及基于深度神经网络(DNN)的方法进行了比较。作者首先测试了LOOCV的预测性能,作者发现在34次比较中的33次中,基于NetBio的预测优于其他方法。对于跨研究预测性能,基于NetBio的预测在18次比较中有17次优于其他方法。这些结果表明,与其他生物标志物相比,NetBio可以提高对ICI治疗反应的预测。

5. 基于NetBio的预测优于纯数据驱动的特征选择方法

将数据驱动的ML模型用于临床应用的一个主要限制是它无法在新数据集中始终如一地执行,尽管它在训练生信分析数据集中表现良好。因此,作者测试了与纯数据驱动的特征选择方法相比,在本研究中添加代表PPI网络的先验生物学知识是否可以改善特征选择。与纯数据驱动的ML预测相比,基于NetBio的ML模型能够持续改进预测性能(图4)。具体来说,对于数据驱动的ML模型,作者选择了在训练生信分析数据集中最能区分响应者和非响应者的K个特征,并使用所选特征来训练ML模型。在11个不同的任务中,作者发现基于NetBio的预测显示出明显优于基于ML的特征选择的特征(图4b)。此外,在预测黑色素瘤群组(图4c)时,始终观察到性能改进,这表明网络引导的选择可以帮助减少ML模型的过度拟合。这一观察表明,与纯数据驱动的特征选择相比,网络引导的特征选择可以提供强大的特征。总之,作者的结果表明,可以通过利用基于网络的生物标志物选择来识别强大的转录组生物标志物。

图4 使用基于机器学习的特征选择比较预测性能

6. 基于NetBio的预测概括了TCGA数据集中的免疫微环境

由于NetBio在包含三种不同癌症类型的不同队列中表现最佳,作者研究了基于NetBio的预测是否可以概括与免疫治疗反应相关的免疫微环境。作者测试了基于NetBio的预测如何与TCGA生信分析数据集中的免疫环境相关联(图5a)。具体来说,作者使用黑色素瘤队列来预测TCGA生信分析数据集(TCGASKCM)中黑色素瘤患者的ICI反应,胃癌队列预测TCGA胃癌(TCGASTAD)和IMvigor210数据集(膀胱癌队列)预测TCGA膀胱癌(TCGABLCA)患者并将预测的药物反应与(i)肿瘤突变负荷(TMB)或(ii)TCGA患者的免疫环境相关联(图5a)。

图5 基于NetBio的预测概括了免疫微环境

7. NetBio通路的表达水平与膀胱癌患者的免疫细胞浸润有关

因为据报道免疫细胞的浸润与膀胱癌中的抗癌药物反应密切相关30,40,作者询问膀胱癌TCGA生信分析数据集中NetBio途径的表达水平是否与免疫细胞浸润水平相关.在膀胱癌患者中,作者使用额外的基于IHC的结果验证了趋化性和吞噬作用途径(即趋化因子受体分别结合趋化因子和FcgR激活)与PD-L1治疗的膀胱癌队列中的免疫浸润相关。作者在IMvigor210生信分析数据集中使用了免疫表型。具体来说,作者使用了不同的免疫表型,包括(i)免疫沙漠(少于10个CD8T细胞),(ii)排除(与肿瘤细胞相邻的CD8T细胞)和(iii)浸润(与肿瘤细胞接触的CD8T细胞)表型(图6a)并将趋化性和吞噬途径的表达水平与免疫表型进行比较(图6b,c)。与免疫沙漠或排除表型相比,免疫浸润表型显示出途径的最高表达水平(图6b,c),表明NetBio途径可以捕获膀胱癌中的白细胞浸润部分。总之,作者的结果表明,NetBio可以始终如一地揭示与免疫治疗反应相关的免疫微环境相关的途径。

图6 NetBio通路的表达水平与膀胱癌中基于免疫组织化学的免疫表型一致

8. 将NetBio表达水平与ML模型中的肿瘤突变负荷(TMB)相结合,提高了对PD-L1抑制剂治疗的膀胱癌患者的预测

尽管高TMB水平与ICI治疗的益处增加相关,但ICI反应者和非反应者通常显示TMB水平显着重叠,这表明单独的TMB不足以预测ICI反应。因此,作者测试了将作者的NetBio与基于TMB的预测器相结合是否可以提高预测性能(图7a)。结合NetBio表达水平和TMB改善了对接受PD-L1抑制剂atezolizumab治疗的膀胱癌患者的总生存期的预测(图7b、c)。使用LOOCV预测ICI治疗反应,仅用TMB训练ML模型,预测反应组和预测无反应组之间的1年生存百分比差异为18%(图7b)。当同时使用TMB和NetBio时,1年百分比生存率差异增加到22.3%(图7c),以及对数秩检验统计的改进。

图7 将基于网络的转录组特征和肿瘤突变负荷(TMB)相结合,可以提高对PD-L1抑制剂(atezolizumab)治疗的膀胱癌患者总体生存率的预测

总结

基于NetBio的预测优于基于其他常规ICI治疗生物标志物的预测,例如ICI靶标或肿瘤微环境相关标志物,这项研究提出了一种基于网络的方法,可以有效地选择免疫治疗反应相关的生物标志物,可以为精准肿瘤学做出基于机器学习的稳健预测。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多