分享

Nature Genetics|东亚人肺腺癌的基因图谱

 微笑如酒 2020-03-09

肺癌是世界上致死率最高的癌种,并且表现出了很强的祖先差异,今天为大家带来的这项研究分析了305位东亚祖先个体的基因组和转录组数据。相关工作发表在了2018年的10月份的Nature Genetics上。

摘要

肺癌是世界上癌症致死的主要原因,并且表现出强烈的祖先差异。实验分析了305位东亚祖先个体的基因组和转录组数据,从而发现了相比欧洲祖先个体,东亚肺腺癌祖先患者有着更稳定的基因组,含有更少的突变和拷贝数改变。相比非吸烟者,在吸烟患者中,这个结论更加强烈。转录组聚集识别了一个新的东亚特异性肺腺癌亚组,该组基因组复杂度较低,并上调了免疫相关的基因,使免疫治疗成为可能。结合临床和分子特征的分析展示了分子分型在病人预后中起到了重要作用。相比欧洲祖先个体,东欧祖先肺腺癌个体有着更好的预测准确性,很可能是因为其基因组结构复杂度更低。这篇文章阐释了东亚肺腺癌的基因图谱并突显了两类人种间祖先的不同。

结果

肺腺癌是肺癌最常见的类型,在全世界每年有超过1百万的死亡。一些大规模的基因组研究分析了肺腺癌(LUAD)的基因组图谱并指出重要的治疗靶向位点例如EGFR和ALK。

肺腺癌的基因组研究主要基于欧洲祖先的吸烟群体。但是,肺腺癌似乎在欧亚两洲人种中有显著的差异。例如,东亚祖先(EAS)肺腺癌患者主要集中于女性非吸烟者,但是在欧洲肺腺癌主要发生在男性吸烟者。EGFR突变在东亚肺腺癌患者中占40-60%,但在欧洲肺腺癌患者中只占7-10%。进而,在东亚一些新的驱动基因已经发现在适量的中国人群中,表明了基因组差异比预期更加明显。肿瘤内异质性是肿瘤进化和病人生存的重要指标,同时也被报道东亚EGFR突变非吸烟者比欧洲患者多。尽管发现这些观察,但是肺腺癌基因组祖先差异仍没有系统地阐释,因为缺少足够的东亚人群。

我们测序了213位新加坡肺腺癌病人的外显子组(210例)和转录组(181例)。与之前的92例中国病人全外显子测序,我们总结了305例东亚肺腺癌基因组和转录组数据。使用相同的数据分析比较东亚和欧洲的基因图谱,我们识别了驱动突变,拷贝数改变和RNA转录组中的差异。整合了临床信息和基因组特点的网络,我们发现东亚肺腺癌患者有着更好的病人预后准确性,可能是因为其有着更稳定的基因组图谱。我们描绘了东亚肺腺癌基因组图谱,并指出具有重要临床意义的祖先差异。

东亚肺腺癌的驱动基因

由于样本数量较大,我们致力于识别驱动基因,特别是那些在东亚组的从中位到罕见的基因。通过MutSigCV28和20/20+(ref. 29)两种方法,在FDR为0.1的筛选条件下,我们识别了27个驱动基因。其中最常见的驱动基因是EGFR(47%),TP53(36%)和KRAS(11%)。潜在融合驱动事件也被检测到,并且使用了新加坡样本的转录组进行了验证(图1c)。低丰度的驱动基因似乎是东亚肺腺癌患者的主要特点,并且这些基因具有较低的TMB。在东亚非吸烟者中每个病人的肺腺癌驱动基因平均为2.08(欧洲非吸烟者2.65,p value=0.045),在东亚吸烟者中是3.64(欧洲吸烟者5.56,p value=4.2×10-6),并且13.24%的病人没有驱动突变或者突变融合事件(欧洲2.81%)。除了已知的驱动基因,我们也识别了7个新的肺腺癌驱动基因:PARP4(6%),EPRS(4%),LYST(4%),NCOR2(2%),PBRM1(2%),RASA1(2%)和ZMYM2(2%)。NCOR2和PBRM1被列在其它癌症类型的癌症基因人口普查(CGC)中。NCOR2在前列腺癌中驱动肿瘤生成,但PBRM1是肾癌和乳腺癌中作为肿瘤抑制子。PARP4编码了PARP家族的一员,调控DNA修复和基因组的不稳定并且与多种类型的癌症相关。其它新的驱动基因,包括EPRS,LYST,RASA1和ZMYM2,表现出肿瘤抑制子的典型突变图谱并且在其它肿瘤类型中促进肿瘤生成。当比较组间的驱动基因时,吸烟者中有15个,非吸烟者中有4个成显著差异(图1d)。东亚组EGFR和PARP4突变频率更高,经典驱动基因,例如KEAP1,STK11,NF1,BRAF和KRAS,有着较低的突变频率。即使控制了混杂因素和功能限制基因,绝大多数的差异仍然显著。总而言之,我们证明了东亚和欧洲肺腺癌患者的驱动基因是有差异的。

驱动基因和临床表型间的关联性

将东亚组的临床特点与驱动突变结合,我们发现女性中富集EGFR突变,而TP53,KRAS,APC,EPRS,LYST和KEAP1突变富集在男性和吸烟者中(图1e)。TP53突变在更年轻的患者中有更高频率的突变(平均年龄61.3对64年,q=0.098),但是RBM10突变发生在更年老的患者中(平均年龄72.1对62.3年,q=0.057)。随后,我们测定了驱动状态和病人生存之间的潜在相关性,使用COX模型考虑临床因素(阶段,吸烟,年龄和性别)。在东亚组,4个驱动基因(KEAP1,PBRM1,APC和PDGFRA)的突变与低生存相关,但EGFR突变有助于生存。同样手法分析欧洲病人,我们发现一组驱动基因(CDC27,STK11,SETBP1和SKIV2L2)来分类。就驱动共发生和突变互斥而言,TP53,NAV3,LRP1B和一些其它的突变通常在同时发生,但是只有EGFR和KRAS这一排斥驱动对是相互排斥。这证明了EGFR是一种主要的驱动基因并且能够驱动肿瘤生成。

Fig.1

CNAs的祖先差异

首先,我们识别了可改变的拷贝数变异(CNVs)。在染色体水平上,东亚组比欧洲组的CNVs低,同时这种差异更多的发生在删除。但是,在两组中,EGFR,MYC和KRAS的驱动基因扩增周围有许多聚焦的CNVs,但FAT1,APC和STK11主要发生在删除。我们进一步比较在吸烟者和非吸烟者之间的祖先间的CNV,并计算倍性、基因组加倍和基因组改变百分比。比较欧洲吸烟者,东亚吸烟者异倍性更低,基因组加倍的肿瘤的百分比更低,并且展示了较低的GII,这主要导致了低删除事件。控制可能混杂因素,在吸烟组别中,祖先差异仍旧明显。但在,非吸烟组中,尽管整体趋势还在,拷贝数差异显著性较低。总体来说,结果表明相比欧洲组,东亚肺腺癌组的基因组改变较低,基因组图谱复杂度较低。

东亚肺腺癌组的突变信号

使用非负矩阵分解(NMF)算法,我们在东亚组发现了衰老、吸烟、APOBEC三个信号。我们将病人分成三个信号组(图2d)。吸烟组的特点:男性吸烟者,KRAS突变较多;衰老组:展示可逆图谱。在吸烟者中,东亚组比欧洲组的衰老信号强,但在非吸烟组,信号比例相似。为了了解肿瘤生成的突变进展,我们将突变分为早期和晚期突变,并比较三种信号的相对值。在两人种组别中,APOBEC信号富集在晚期突变中,但吸烟信号主要富集在早期突变。我们进一步分析了突变过程中转录配对修复(转录不对称)和DNA复制相关机制(复制不对称)的突变链不对称。转录不对称图谱在两人种组中相似,且在吸烟组与非吸烟组中有着相似的差异。但在复制不对称图谱中一致性较低。这种结果表明在两人种中DNA复制与突变生成有关。

Fig.2

东亚肺腺癌的新炎症亚型

之前的研究使用监督聚类方法对欧洲肺腺癌的转录组特征进行了识别,发现了三个主要的转录组:末端呼吸单元(TRU)、近端增殖(PP)和近端炎症(PI)。为了识别组间转录组集群,我们整合172个东亚和249个欧洲肿瘤样本的RNA-seq数据,并将其分组。在两人种中,使用NMF方法发现分成两组或三组最佳。样本分成两组——TRU和非TRU组(图3a),且表达图谱一致(图3b)。TRU组有着更好的生存,其特点也更接近正常组织,并包括了下调的增殖通路,较低的TMB,较低的基因组不稳定(图3c,e,f),这表明了肺腺癌在组间具有保守的基础分区。进一步分析RNA集群,我们又将病人分为三组(图3a)。在欧洲组,NMF仍然保持原有三组分型。为了比较组间的亚型,其中东亚两组与欧洲组TRU和PI两组高度相似,所以名字与欧洲组一致(图3b),但东亚最后一组与欧洲组完全不同,有着上调的炎症通路,炎症反应较高,因此命名为TRU-I, 因为它的大部分成员都在TRU集群在两组分区中(图3a,g)。对比东亚其他两组,TRU-I亚组的TP53突变最少,表达量最低,CNV也最低(图3e)。从转录组数据中分解出免疫成分,发现TRU-1中的T细胞,巨噬细胞,中性细胞,NK细胞和单核细胞成分最高(图3d,e),但在生存、TMB和驱动因素数量方面与TRU无显著差异。在欧洲组,炎症特征存在于PI和PP两组,但PP组更多地是免疫抑制。(图3d,e)这些结果说明了炎症特点可能是主要的组间轴,能够分组转录组,并帮助病人选择合适的免疫治疗。

Fig.3

治疗时机上的遗传差异

这两个组的基因组改变图谱阐明了治疗的潜在差异。RTK/Ras通路,包括EGFR是一个包含许多靶向基因的通路。整合了突变和CNVs,最重要的是KRAS在体细胞中的突变,我们发现比较两人种组别,吸烟者组中ALK和ERBB4,而非吸烟者中有MET。这与EUR肺腺癌组中较高的基因组变化是一致的。相反,无论吸烟与否,EGFR突变始终在EAS中更为普遍。因此,RTK/Ras通路在吸烟者组中是欧洲人中突变频率比较高,但在非吸烟者中是相反的(图4b)。检查一组标志性致癌通路,在欧洲组中吸烟者的所有通路有着更高的改变频率。但是,在非吸烟者组中,欧洲人种中只有TGFβ和NRF2通路有着更高的改变频率。不是所有的体突变能够导致靶向突变,我们把这些突变与OncoKB做对比。最后我们发现,只有EGFR的改变在两人种组别中为主要的基因改变因子。尽管欧洲组患者的MET和CDK4有着较高的扩增率,这种改变相对比较少,而且仍在药物研发中。除了靶向治疗,免疫疗法扩大了肺腺癌治疗范围。使用GEP评分,我们发现EAS的GEP评分显著升高(图4d),这说明了该组患者的ICB治疗潜力更大。因为有EGFR突变的病人有着较低的GEP和较低的ICB治疗应答,我们致力于两人种组中EGFR WT型病人。显著地,EAS TRU-I亚组展示出更高的T细胞浸润,PDL1表达和GEP得分(图4e),表明了在ICB治疗中作为病人筛选,TRU_1表型是潜在标志物。

Fig.4

对多个数据层的综合分析

在这项研究中,发现了几个高度相关的临床和分子特征来分层患者的结果。例如,较高的ITH被认为预示较差的生存,但在我们的EAS队列中,EGFR突变的患者往往具有较高的ITH和更好的生存结果。这突出了驱动状态与肿瘤异质性之间复杂的相互作用。为了系统地调查多维特征之间的相关性,我们列出了24个特征,从基本的临床和基因组状态到可以分层病人结果的特征。然后将这些特征分为四组:临床特征、驱动基因、ITH相关特征(除了第一类特征外,其余都被称为“基因组特征”)。通过绘制这些特征的相关结构,我们在EAS队列中发现了一个复杂的相关网络(图5a)。值得注意的是,TMB和CNV相关集群代表了连接多个数据层的基因组复杂性的两个主要轴(图5a)。利用单变量和多变量Cox模型,我们评估了EAS队列中多层特征的预测能力。基于单变量P值和多变量模型的重要性,发现临床和驱动基因是最强的预测因子,其次是分子和ITH特征(图5a,b)。使用c index单独评估这些特征组的预测准确性时,可以看到类似的趋势(图5c)。ITH特征通常表现最差,表明从单部分数据推断的异质性可能不足以预测患者的生存。根据多变量Cox模型预测的危险,我们将患者分为三个预后不同的生存组,并观察到多个基因组特征的明显分离(图5e,f)。虽然临床特征是强有力的预测因素,但我们发现,基因组特征本身也能较好地预测患者的生存期,而没有临床特征的多变量模型仍然可以将患者分为早期和晚期,这突出了基因组测序的预后作用。当我们对EUR队列进行相同的分析时,我们观察到许多类似的趋势:(1)EGFR突变型肺癌的ITH值也更高(补充图30);(2)与TMB和CNV相关簇特征之间存在高度相关的网络结构;(3)临床特征是预测患者生存的首要因素,其次是驱动基因(图5b,c);(4)基因组特征在不同生存亚组间明显分离;(5)基因组特征本身可将患者分为早期或晚期肿瘤。总体上的相似性表明,LUADs的基本结构在不同的祖先背景下是相当保守的。尽管有这些相似之处,但即使在控制吸烟状态、样本量或EGFR突变状态的差异的情况下,EAS对生存结果的预测准确性普遍高于EUR(图5c)。由于EUR LUADs有更多的基因组变化,EUR的生存可预测性差可能是与不稳定基因组相关的一个特征。通过比较不同基因组稳定性水平的患者的预测准确性,我们观察到,在使用临床或驱动基因预测因子的两组患者中,预测倍性较低的肿瘤的准确性更高(图5d)。因此,EAS LUADs中更稳定的基因组可能比EUR有更好的预测准确性。

Fig.5

结论

综上所述,本文系统地描绘了EAS LUADs的基因组景观,并揭示了与EUR LUADs的显著差异。肺癌的祖先差异研究阐明了基因在分子和临床表型上的变化如何被统一起来,从而揭示导致EAS和EUR之间祖先差异的因素。此外,临床特征比基因组表型更能有效预测患者的生存,但基因组特征可以有效地补充传统的临床特征,从而对患者结果进行分层,并根据个体风险状况量身定制治疗方案。包括基于深度学习在内的方法可以进一步整合这些多维数据,以推动未来的精准医疗计划。

作者:岳雪彤

编辑:刀刀

原文引用:https:///10.1038/s41588-019-0569-6

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多