分享

文章解读 | TCGA的机器学习:检测泛癌Ras通路激活化

 生物_医药_科研 2018-12-15

研究亮点

基因表达的机器学习模型能助力精准肿瘤学。本文建立的模型能识别TCGA数据库里的肿瘤和细胞系中的Ras激活;此模型能鉴别拟表型Ras激活事件,例如NF1 loss;此方法描绘了Ras通路的各种变异,并且可以拓展到其他通路的研究。

研究背景

精准肿瘤学通过基因组证据来为癌症病人匹配特定的疗法,然而截止至今它仅仅使相对低比例的病人获益。尽管在临床上很有前景,精准肿瘤学缺少完整准确的匹配策略,并且未能识别许多用其他方法可以匹配到的病人。覆盖数千肿瘤的转录组测量编目,在系统性的生物学上促成了对分子扰动的下游结果的透视。用转录组状态来检测这些扰动,可以使精准肿瘤学更准确、完整地匹配病人与有效疗法。研究者用了TCGA(The Cancer Genome Atlas Research)癌症组织的大范围肿瘤数据来建立、评估可以基于异常基因和通路功能来将肿瘤分类的统计模型。一些策略使用了来自个别癌症类别的数据,如在结肠癌中的KRAS异常和成胶质细胞癌中的NF1功能异常的基因表达特征。2017年有文章提出了一个非监督方法以分解细胞系的基因表达状态,以此来定位通路活性。在本文中研究者将介绍一种用弹性网络惩罚逻辑回归分类器来从各类型肿瘤组织的基因表达芯片数据中学习基因特征和通路改变。研究者将他们的方法应用在各癌症类型来学习一种独立的通路异常的泛癌特征。研究者表明此方法可以被用来鉴别拟表型变体,同时只需要基因表达数据来推理出新数据即可。他们用了此方法来检测Ras通路的泛癌激活。

Ras通路在很多不同的癌症类型中频繁改变。该通路常通过KRAS,NRAS或HRAS的获得功能性变异和NF1的失去功能性变异来激活,使细胞增加翻译输出和未被查验的细胞增殖。具体的癌症类型,像胰腺癌,黑色素瘤,甲状腺肿瘤,肺腺癌,结肠癌,已经为人所知地很大程度上受Ras通路基因的突变所驱动。此外,Ras通路的突变被观察到是肿瘤形成的早期事件,并且与低存活率、治疗抵抗等相关。因为Ras通路无所不在地失调,发展出特定的疗法靶点是国家癌症研究所的初衷。然而,Ras也是众所周知地很难决定靶点,精确检测其故障是其中最重要的一环。

最直接的评估Ras激活的方法是有Ras靶向测序。然而,这些方法未能检测在那些拟表型Ras激活突变的基因中的未知变异。本研究描述了一种集成大量RNA测序、拷贝数和点突变数据的机器学习方法。研究者宣称此方法能够检测Ras激活的泛癌。这个分类器同样能鉴别TCGA的NF1拟表型事件。人工精选的Ras通路基因致癌变异相比于未知重要性的变异,被分配了更高的分类得分。研究者表示此方法还可应用于其他的癌症相关基因和通路。例如,TCGA的DNA损伤修复研究分析小组就在TP53失活的检测中应用了此方法。

研究成果

1.机器学习模型预测通路活性

此模型用TCGA数据的33种肿瘤类型的9075个肿瘤样本,基于受弹性网络惩罚调节的逻辑回归分类器架构。转录组数据被用来描述肿瘤表达状态并训练分类器以检查与异常通路活性符合的下游基因表达模式(如图1A)。算法结合基因价值分数,或比重,来综合学习如何将异常的与野生型的表达模式分隔开。阳性训练集数据包括含非沉默体细胞突变(如图1B)以及致癌基因拷贝数增加和抑癌基因拷贝数大量减少的肿瘤样本。


图1A&1B. 分类器的构建

2.检测Ras激活化的泛癌

研究者通过KRAS,HRAS和NRAS的突变和拷贝数增加来训练了分类器,这三种核心Ras基因在各癌症类别的突变比例差异极大。根据TCGA数据库显示,KRAS突变在胰腺癌(72%)、结肠型癌(45%)、直肠腺癌(42%)、肺腺癌(31%),而NRAS突变通常是在黑色素瘤(31%)上。研究者针对特定肿瘤类型里野生型与Ras突变肿瘤进行差异表达分析。

在分类器中,为了执行更平衡的分类表示法,为了减少度量上的膨胀,研究者用了来自33个癌症类型中的16个(图2A)。同时他们也基于绝对中位差用了8000个最具表达多样性的基因。研究者从中挑出10%(n=476)作为测试集,90%(n=4283)作为训练集。他们执行了5-折交叉验证,并将验证结果和训练集、测试集的表现共同展示。他们评估了在各癌症类型中通过训练筛选得到的最终分类器。

最后,这个分类器展现出很好的表现,它的交叉验证和测试集在受试者工作特征曲线(AUROC)中的下半部分超过84%并且有超过63%的部分位于精准召回曲线(AUPR)下半区域(图2B)。对于最初从训练中筛出的样本,同样观察到可观的表现,受试者工作特征曲线中75.2%与精准召回曲线24.7%。因此,这个分类器检测到的在组织中的Ras激活信号在训练中没有显示。在最终分类器的9075个样本中,研究者观察到86.7%在受试者工作特征曲线和61.2%精准召回曲线。


图2. 弹性网络惩罚分类器的训练和测试

对弹性网络惩罚分类器的训练构建出了数据稀疏性的分类器,只有185个基因有助于分类。比重大于0的基因和协变量可以被解读为对Ras激活的肿瘤的正调节,与之相对,比重为负的基因可被视为含野生型Ras的肿瘤的特征(图2C)。然而,对系数的解读必须要谨慎,因为弹性网络调整的方法导致了稀疏性,这意味着此结果只能代表一个与Ras激活相关基因的子集。

研究者还把将训练好的分类器用来独立地做每种癌症类型的泛癌分类。指定癌症类型和泛癌分类器都在各癌症类型中有多样化的表现,同时泛癌模型在约半数的比较中胜过癌症类型内部最优模型(图2D)。

   

3.Ras分类器基准分析

研究者用了几种分析手段来评估Ras分类器的稳健性。一个虚无模型在随机混淆的基因表达矩阵中用抵抗测试和交叉验证来得到了50%受试者工作特征曲线和20%精准召回曲线的结果。这表明了此模型在基线上的强大表现。他们也发现分类器在Ras突变和Ras复制数增长上的表现相似,Ras突变的模型表现最好。这个模型把KRAS, NRAS, 和HRAS还有另外11个Ras病变基因从表达矩阵中选出的能力很强。而表现也未被参数信息影响。

模型间基因系数存在联系。在复制数模型中的高比重正向基因都在12号染色体的KRAS周围,导致复制数事件的假象,而其另一个原因是只发生正向拷贝数的样本量过小。研究者发现,舍弃不同Ras通路基因的不同模型中基因系数具有相似性。表达差异分数和学习到的系数很相近,但会比稀疏性分类器识别更多基因。总之,分类器随表达类型而效果不同,但是在将基因输入表达矩阵中都很强力,不依赖协变量。和表达差异分析包含的基因类似但更少。

 

图3. Ras野生型与突变型与Ras分类器分数的相关性

4.检测细胞系中的Ras激活

研究者用两个细胞系数据集来检测训练好的分类器是否可以用在细胞系上。首先将分类器应用在10个小导管上皮细胞转录组数据中。该分类器正确地将10个样品中的9个分类(p=1.16e-2)(如图3A),并将所有含突变的样品排序在野生型之前。

接着研究者将分类器应用在包含表达和突变数据的来自于癌症细胞系百科全书(CCLE)的737个不同细胞系的RNA测序数据中(如图3B)。分类器显著性地给突变Ras分配了更高分数(p=6.35-36)。393个预测到的野生型中,357个是事先被标记的野生型(阴性预测值=90.8%)。然而344个预测突变中只有153个突变是被事先标记好的突变(准确率44.5%)。总共,737个中510个细胞系预测正确(69.2%)。在此情况下,低准确度可能表明此分类器未能成功推广;或者分类器可能成功识别了这些拟表型,他们在评估观点中呈阴性,但却是研究者本想捕捉到的那些。

为了探明哪种可能性为真,研究者检查了BRAF(一个特点鲜明的致癌下游Ras基因)的突变状态。BRAF变异的拟表型Ras会被记为阴性,并且如果他们在分类器的排名中很高,会减少上述观察到的准确度。事实上,与BRAF野生型相比,分类器显著性地将高分分配给了BRAF变异细胞系(p=1.16e-11)。在191个假阳性中,56个有BRAF变异(29.3%)。剩下的假阳性指向要么是肿瘤错配,要么是肿瘤还藏有其他拟表型变异。接下来,研究者测试了CCLE药理学反应数据来决定Ras分类器分数是否具有对MEK抑制剂的敏感预测性。研究者观察到含Ras分类器分数与两个MEK抑制剂(selumetinib和PD-0325901)的敏感性有相关性(如图3C&3D)。相关性主要是受到Ras基因野生型的细胞系驱动的,这意味着几个药物敏感的细胞系可能是被仅针对Ras基因测序漏掉了。将上述分析整理,对额外突变和Ras野生型细胞系药物反应数据的评估强烈显示在这次分析的低准确度与拟表型事件的鉴别有关。

最后,分类器将34个携带Ras突变的细胞系打分为野生型。研究者观察到34个中的22个(64%)假阴性细胞系携带COSMIC数据库中收录的变异。与之相对,152个假阳性中的144个(95%)被发现,这个比例显著性高于假阴性的发现比例。因此这个分类器检测到了变异水平分辨率的信号。

 

图4. Ras通路突变与复制数与Ras分类器打分关系

5.其他Ras通路变异拟表型的Ras激活

这个Ras分类器尤其能检测在CNS肿瘤中的NF1-丢失事件。而且表现比得上用特定癌症模型和泛癌模型构建的NF1分类器(图4A)。这些肿瘤并不包含在Ras分类器训练集中。与NF1-特异分类器相比,卵巢癌、结肠腺癌和子宫内膜癌中的NF1-失活事件检测效果也有所提升(图4A)。

通过对38个核心Ras通路基因的精选的变异进行分类打分,研究者观察到KRAS、NRAS、HRAS和BRAF中的致癌变异都得到高分(图4B)。然而,在THCA中的BRAFV600E 突变被压倒性地被预测为Ras野生型。研究者将两个BRAF-主导的癌症类型(甲状腺癌和黑色素瘤)去除后重训练了一个分类器。在这个模型中,研究者观察到THCA、BRAF、V600E突变被预测为含Ras激活,这和之前对BRAF功能以及对细胞系的分析保持了一致。

最后,在野生型的KRAS、NRAS和HRAS中,研究者观察到Ras分数在其他通路基因的后续突变后增加了;在KRAS、NRAS和HRAS突变的样本中,分数并没有在出现其他附加的通路突变之后增加(图4C)。然而,在其他Ras通路基因中更多的拷贝数事件导致了Ras突变样本的分类器低分(图4D)。这些结果可能暗示了在Ras通路上Ras自己以外的基因的多次突变可能会导致Ras激活表型的增加。

讨论

这个机器学习方法构建的分类器不仅能应用在检测Ras激活,同时也能广泛地应用在拟表型、细胞系等其他基因或通路研究上。研究结果提供了一个有效的生物标记应用,它可用于揭露可能隐藏的被测序所忽略的响应者。

跟其他被推荐的方法一样,此方法也会被以往文献不准确的资料影响。研究者克服了在甲状腺癌的BRAF检测的不利限制。BRAF突变被熟知为激活ERK,且不应分类为野生型Ras.本研究建议在预测的是混淆突变的情况下,最好在训练时保留一个癌症类型。通过保留这种数据,不需要重建用BRAF V600E突变作为阳性例子的新分类器,这可能有助于防止分类器不断扩大矩阵规模的蔓延过程。此外,并不清楚如何去最适当地根据高度变异的表型来进行调整。这些肿瘤更可能含有Ras突变。这个问题可能可以通过提前分离不同来源的变异来回避。

当多重突变发生在Ras通路基因时,肿瘤展示出与增加的Ras活性相关的转录模式。这和对观察到的拷贝数事件相反。很多KRAS, NRAS, 和HRAS得到了低分,这或许表示要么剂量反应抵消了超激活,要么准确的Ras分类受到碱基替换事件的抑制。

总之,研究者展示了一个可以用转录组数据预测大量肿瘤中Ras 活性的机器学习方法。这个方法或能避免使用多种基因组测量来检测Ras激活并识别更多有Ras激活的病人。

小编评论

本文用机器学习的方法来构建了弹性网络惩罚的分类器,开创了在Ras通路研究上的一个新应用。而更可贵的是,这个分类器经TCGA的其他小组应用,在其他表达通路上也有不错的表现。或许在现阶段这种缺乏部分监督与标准化的方法无法成为主流的研究办法,但在测序分析中,它可以作为辅助办法来查漏补缺,通过模型增加数据的可读性,回避一些传统方法会引起的偏差。使研究结果更多样化,结论更可信,为将机器学习应用在生物信息学及医学上提供良好思路。

参考文献

[1] Way GP, Sanchez-Vega F, La K, et al. Machine learning detects pan-cancer ras pathway activation in the cancer genome atlas[J]. Cell reports, 2018, 23(1): 172.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多