【原】8+肿瘤+多组机器学习+分型，汇集10种聚类方法+百种机器学习方法，思路和方法都值得参考！！

智汇基因 2023-10-09 发布于广东

展开全文

导语

今天给同学们分享一篇肿瘤+多组机器学习+分型的生信文章“Integrated multiomics analysis and machine learning refine molecular subtypes and prognosis for muscle-invasive urothelial cancer”，这篇文章于2023年6月5日发表在Mol Ther Nucleic Acids期刊上，影响因子为8.8。

肌浸润性尿路上皮癌（MUC）具有高侵袭性和显著的异质性，目前缺乏高度精确的个体化治疗选择。作者使用计算流程对MUC患者的多组学数据进行综合分析，采用10种聚类算法，并结合10种机器学习算法，以识别高分辨率的分子亚群，并开发出一个稳健的共识机器学习驱动签名（CMLS）。

1. MUC的多组学共识预后相关分子亚型

这项研究的工作流程如图1所示。在对所有数据进行有效预处理后，作者通过主成分分析（PCA）进一步验证了作者的结果，以分析处理批次效应前后的数据。作者独立地从10个多组学集成聚类算法中确定了三个亚型，并通过综合参考聚类预测指数、间隙统计分析、轮廓分数和以往的研究经验来确定亚型的数量。然后，通过共识集成方法进一步结合了转录组（mRNA、lncRNA和miRNA）、表观遗传甲基化和体细胞突变的独特分子表达模式来得到聚类结果（图2A-2C）。作者的分类系统与总体生存率（OS）密切相关（p < 0.001；图2D）。值得注意的是，在所有评估的亚型中，癌症亚型2（CS2）表现出最有利的生存结果。

图1 建立CMLS的计算框架

图2 MUC的多组学整合共识亚型

2. MUC整合共识分子亚型的分割

目前，大多数MUC的分子亚型是根据分子表达水平进行分类的，可能与特定的生物功能有关。因此，作者还尝试探索这些CS的不同分子特征。单样本基因集富集分析（ssGSEA）算法测量了样本中不同分子标志物的富集程度。有趣的是，作者发现在CS2中明显富集了如腺上皮分化和尿路上皮分化等途径，而在CS3中明显富集了如基底分化和免疫分化等途径，这表明CS2可能更容易倾向于目前认可的腺上皮样亚型，而CS3更倾向于基底样亚型。此外，不同亚型对特定治疗的反应也存在较大差异，如CS2中明显富集了免疫抑制性致癌途径，而CS3可能更有可能从放疗或靶向治疗等治疗中获益（图3A）。

图3 MUC CSs的分子景观和验证

为了进一步研究转录组差异，作者分析了与癌症染色质重塑相关的潜在调控因子和23个MUC的转录因子（TFs）（图3B）。调控因子活性与CSs的密切相关性证实了CSs的生物学相关性。雄激素受体（AR）、ERBB2、成纤维细胞生长因子受体3（FGFR3）和FOXA1调控因子在CS1和CS2中显著激活，而EGFR、TP63、HIF1A和STAT3则特异性富集在CS3中。与癌症染色质重塑相关的调控元活性进一步突显了CSs之间差异调控的潜在模式，表明表观遗传驱动的转录网络可能是这些分子亚型的重要区分因素。鉴于肿瘤免疫在肿瘤发生和进展中的关键作用，作者量化了微环境细胞的浸润水平，并显示免疫细胞浸润在CS1和CS3中显著增加，而在CS2中相对较低（图3C）。根据亚型之间差异表达分析的结果，作者选择了每个亚型中特异性上调的20个基因作为分类器，并在多个外部队列中进行验证，以进一步验证亚型的稳定性。最近模板预测（NTP）将外部队列中的每个样本分类为已确定的CS之一。与此一致的是，在合并了8个队列的META-MUC队列中，CS2的预后最好（p < 0.005），在其他外部队列中也得到了类似的结果（图3D和3E）。还评估了CS与NTP和PAM算法的一致性（p < 0.005；图3F-3J）。

3. CMLS的发展

作者对IMvigor 210队列（IMvigor）-MUC、The Cancer Genome Atlas（TCGA）-MUC和META-MUC中与OS显著相关的32个SPRGs进行了单变量Cox回归分析。随后，将SPRGs纳入集成框架进行CMLS。在IMvigor-MUC训练队列中，作者基于99种算法组合构建了一致的模型，并计算了所有队列中每个模型的平均C-index，以评估所有模型的预测能力（图4A）。如图4B和4C所示，99个模型中，由CoxBoost和逐步Cox（direction = forward）组成的算法保持了最高的平均C-index，用于构建最终模型。CoxBoost算法确定了最有价值的SPRGs，而逐步Cox算法则筛选出了最有价值的模型，该模型由12个中心基因构建。然后，作者计算了所有队列中每个样本的CMLS得分。在TCGA、META、IMvigor和综合队列中，高CMLS患者的临床结果较差（图4D-4G）。

图4 CMLS的产生和预测价值

对于CMLS的中心基因，作者通过Biomarker Exploration for Solid Tumors (BEST)数据库（https:///app_direct/BEST/）使用Kaplan-Meier分析进一步验证了这些中心基因在膀胱癌中的预后价值，所得结果基本与作者通过Cox算法计算的结果一致。作者还观察到这些基因与膀胱癌的无进展生存期（PFS）和疾病特异性生存期（DSS）显著相关，强调了它们对患者的预后相关性。随后，作者利用GSCALite公共服务器（http://bioinfo.life./web/GSCALite/）系统地检查了TCGA中33种不同癌症类型中CMLS的多组学表型。结果显示，在具有超过10个肿瘤和正常样本的癌症类型中，FJX1、FSCN1、EREG、BNC1、SIRPG和PTHLH基因在多个癌组织中高表达。作者还发现CMLS基因的mRNA表达水平与大多数癌症类型中的拷贝数变异（CNVs）呈正相关，尤其是FJX1。通过对CNV频率变化的分析，CMLS基因的CNV在不同癌症类型中显示出显著差异，其中SIRPG和FSCN1的CNV频率最高，主要是拷贝数杂合扩增。此外，作者发现大多数癌症标本中CMLS基因的甲基化水平在肿瘤和正常样本之间存在显著差异。CMLS基因的甲基化水平与这些基因在大多数癌症中的mRNA表达水平呈负相关。所有这些都表明CMLS基因可能通过表观遗传变化对患者的预后产生影响。CMLS基因可以激活全癌症上皮-间质转化（EMT）通路，并对激素AR抑制通路具有显著的抑制作用。

4. MUC预后标志的比较

随着下一代测序技术的出现，近年来已经广泛报道了许多基于基因表达的预后标志物。为了能够全面比较CMLS和其他标志物之间的差异，作者对过去5年内发表的相关文献进行了系统搜索，并最终将22个不同的标志物纳入了作者的研究中。这些特征与不同的生物过程相关，如免疫治疗反应、免疫浸润和糖酵解。值得注意的是，CMLS在TCGA-MUC、IMvigor-MUC和META-MUC数据集中的C-index表现优于几乎所有模型（图5A-5C）。考虑到CMLS的临床应用前景，作者通过独立预后分析筛选出了MUC的潜在独立预后因子，并将它们整合到一个综合性的诊断模型中，以Web计算器的形式呈现（https://the-nomogram./CMLS-DynNomapp/；图5D）。校准曲线证明了该诊断模型与实际情况一致（图5E）。决策曲线分析（DCA）表明，对于患者来说，诊断图的临床效益明显高于仅使用CMLS（图5F和5G），而时间相关的C指数进一步证明了诊断图具有更好的预测性能（图5H）。

图5 CMLS的临床实践价值

5. 与慢性髓性白血病相关的免疫特征

利用免疫肿瘤生物学研究（IOBR）R软件包，作者对MUC的肿瘤微环境（TME）进行了全面分析，并观察到低CMLS患者的免疫细胞浸润水平（包括T细胞、B细胞和巨噬细胞）明显高于高CMLS患者，表明存在免疫激活状态（图6A）。这些发现表明，低CMLS水平的MUC更有可能被归类为“热性肿瘤”。成纤维细胞和中性粒细胞主要富集在高CMLS患者中，与免疫抑制和排斥相关的分子标志物，如EMT途径，也主要富集在高组中，显示出免疫抑制状态（图6B和6C）。这意味着高CMLS的MUC更倾向于是“冷性肿瘤”。正如作者预期的那样，先前报道的与免疫治疗效果更好相关的标志物也在低CMLS组中显著富集（图6D）。肿瘤突变负荷（TMB）和肿瘤新抗原负荷（TNB）是目前公认的评估患者对免疫治疗反应的生物标志物，而曾等人。还提出了M1巨噬细胞在膀胱癌免疫治疗中的特殊作用。因此，作者分析了这些生物标志物在两组之间的差异。低CMLS组的TMB、TNB和M1巨噬细胞富集程度较高，这意味着低组可能具有更高的免疫原性（图6E-6H）。生存分析还表明，CMLS可以作为TMB、TNB和M1巨噬细胞的有效补充因子，用于区分患者的预后（图6I-6K）。低CMLS与较高的TMB或TNB或M1巨噬细胞浸润倾向于对MUC患者有更好的生存预后。

图6 高和低CMLS患者的TME相关分子特征

6. CMLS对免疫疗法反应具有出色的预测能力

为了全面评估CMLS在MUC免疫疗法中的作用，作者进行了系统分析。首先，作者对IMvigor-MUC队列进行了详细分析，考虑到该患者群体的全面预后和治疗相关信息。与许多先前的研究不同，作者通过比较两组在治疗3个月后的长期生存差异（p < 0.05；图7A和7B）以及在6个月和12个月时的受限平均生存（RMS），考虑了免疫疗法的延迟临床效应。较低的组显示出更好的预后结果，这表明免疫疗法的益处更大。不同反应程度的患者中CMLS的分布也显示，反应组（完全缓解[CR]/部分缓解[PR]）的CMLS评分明显低于非反应组（进展性疾病[PD]/稳定性疾病[SD]）（p < 0.05；图7C）。然后，作者计算了追踪肿瘤免疫表型（TIP），以探索与CMLS相关的潜在生物学机制，正如作者预期的那样，低CMLS组在主要的步骤4（肿瘤免疫细胞招募）、步骤5（免疫细胞浸润）和步骤7（癌细胞杀伤）上显示出显著差异，与作者上述分析的结果一致（图7D）。此外，肿瘤免疫功能障碍和排斥（TIDE）算法被用来评估患者对免疫疗法的反应，并显示低CMLS组具有更好的反应性（P [Fisher's exact test] = 5.38e−06；图7E）。亚类映射算法在另一组接受免疫疗法的黑色素瘤患者中进行了实施，结果也显示低CMLS表明对PD-1疗法有更好的反应（Bonferroni校正p = 0.008；图7F）。最后，作者在多个免疫疗法验证队列中重新验证了作者的结论，并获得了预后信息。低CMLS在免疫疗法后的人群中倾向于有更好的预后结果（GSE78220，p = 0.015 [图7G]；GSE135222，p = 0.026 [图7H]), 并且低CMLS倾向于与更好的免疫疗法结果相关（GSE91061，p = 0.032；图7I）。

图7 CMLS在预测MUC患者免疫疗法反应方面的价值

7. 潜在治疗药物的筛选

高和低CMLS人群的预后存在显著差异，GSEA还显示在高CMLS患者中血管生成、EMT、缺氧和其他途径显著激活（图8A）。鉴于高CMLS患者对免疫治疗的不良反应，作者使用癌症治疗反应门户网站（CTRP）和混合物中的相对抑制剖面（PRISM）筛选高CMLS患者的潜在治疗药物。为了确保作者方法的稳健性，作者采用了顺铂作为验证算法推导的敏感性是否与临床实践一致的手段，顺铂是广泛应用于膀胱癌治疗的药物。先前的报告指出ERCC1是接受顺铂化疗的晚期膀胱癌患者的预后生物标志物。作者的算法得出了类似的结果，表明低ERCC1表达水平的患者对顺铂治疗有更强的反应，从而为患者的化疗带来潜在的益处（图8B）。然后，根据先前的研究（图8C），作者系统地探索了高CMLS患者的潜在药物。最后，作者筛选出了一个CTRP衍生的药物（达沙替尼；图8D）和两个PRISM衍生的药物（罗米地平和异喹啉；图8E）。然后，作者评估了肿瘤组织和正常组织中药物候选靶基因表达水平的差异（包括配对和非配对分析）（图8F和8G）。较高的倍数变化表示药物候选治疗的潜力更大（达沙替尼：ABL1、FYN Proto-Oncogene、Src Family Tyrosine Kinase [FYN]、KIT Proto-Oncogene、Receptor Tyrosine Kinase [KIT]、STAT5B；罗米地平：HDAC1）。最后，作者在PubMed（https://www.ncbi.nlm./PubMed/）中寻找了候选化合物的证据。总体而言，达沙替尼和罗米地平被认为是治疗高CMLS患者的有希望的潜在药物。

图8 高CMLS患者的潜在药物代理

总结

这项研究通过多组学一致性聚类鉴定了MUC的三个分子亚型，揭示了它们之间在预后方面的显著差异，并有可能进一步细化MUC的分子分型。借助机器学习算法框架，作者定义了CMLS，该模型在多个队列中表现出卓越的性能，能够稳健地预测患者的预后，并与免疫治疗反应密切相关。鉴于高CMLS组中观察到的预后不良和免疫治疗反应低的情况，作者进一步探索了达沙替尼和罗米地平对这一人群的潜在治疗益处。通过整合多组学数据和尖端计算算法，本研究为MUC患者的早期诊断和精确治疗奠定了基础。