分享

干货:泛癌文献深度解读

 微笑如酒 2018-09-09

摘要

本文分析了TCGA中四种妇科肿瘤和乳腺癌的肿瘤分子数据。目标是确定共有的和特有的分子特征、临床重要的亚型和潜在的治疗目标。我们发现了61个体细胞拷贝数变异(SCNAs)和46个显著突变基因(SMGs)。有11个SCNAs和11个SMGs在先前TCGA的个体肿瘤类型中没有被发现。我们还发现功能上有意义的雌激素受体所调控的长非编码RNA(lncRNA)以及基因/lncRNA的相互作用网络。通路分析识别出了具有高白细胞浸润的亚型,提高了对免疫疗法的潜在影响。我们使用16个关键的分子特征,识别了5个预后亚型,并基于临床实验评估的6个特征开发了一个决策树用于分类患者的亚型。

介绍

该研究主要关注以下五种TCGA肿瘤类型:高级浆液性卵巢囊腺癌(OV),子宫体内膜癌(UCEC),宫颈鳞状细胞癌和子宫颈腺癌(CESC),子宫癌肉瘤(UCS)和浸润性乳腺癌(BRCA)。尽管每个Pan-Gyn器官部位都受到TCGA未研究的各种罕见的组织学癌症亚型的影响,但代表了最常见或侵袭性的肿瘤。这里的分析可以提供背景生物信息和关于治疗选择的快速假设,或提供预先存在的假设的证据。总的来说,这里介绍的癌症类型和亚型之间的许多共性和差异在个体TCGA疾病类型中未被发现。

结果

作者使用了来自2579个TCGA患者样本(Pan-Gyn;1087 BRCA,308CESC,579 OV,548 UCEC和57 UCS)的数据,在任何化学疗法或放射治疗之前使用新鲜冷冻的原始样本。通过分析多种类型的数据,包括临床,体细胞拷贝数改变(SCNA),基因突变,DNA甲基化和mRNA,miRNA,长非编码RNA和蛋白质的表达。在进一步分析之前,针对批次效应调整数据。(1)结果将Pan-Gyn与其他TCGA肿瘤类型区分开。(2)总结平台特异性分析结果。(3)提出具有潜在预后和治疗价值的跨肿瘤型亚型。

结果1 区分Pan-Gyn与其他肿瘤类型的分子特征

首先,作者确定了五种Pan-Gyn肿瘤类型和其余28种TCGA非妇科肿瘤类型的频率不同的分子特征。在调整每个肿瘤类型的样本大小后,我们发现23个基因(包括ARID1A, ERBB3, BRCA1, FBXW7, KMT2C, PIK3CA, PIK3R1, PPP2R1A, PTEN和TP53)在Pan-Gyn肿瘤中比非Gyn类型中有更高的突变频率(FDR<>

接下来,我们使用GISTIC2.0来识别Pan-Gyn中的统计学上显著的SCNA,并且也在非Gyn中识别。我们识别了Pan-Gyn肿瘤中的61个显著区域,包括27个扩增和34个缺失;其中在非Gyn中12个扩增和6个缺失未发现,表明Pan-Gyn肿瘤的相对特异性。如下图所示:

其中在Pan-Gyn中选择性扩增MECOM, KAT6A, BRD4, NEDD9, MYCL1和KAT6B,而在非Gyn群组中选择性扩增SOX2,EGFR,CDK4,MDM4和CDK6。MAP2K4和NF1是值得注意的肿瘤抑制基因,具有Pan-Gyn肿瘤特异性的拷贝数丢失,而PTPRD,RBFOX1和TP53是非Gyn样本中更常见的肿瘤抑制因子。调整每个肿瘤类型的样本大小,作者在27个Pan-Gyn扩增区域的基因中识别了23个致癌基因,这些基因在5个Pan-Gyn肿瘤类型中比在非Gyn类型中更频繁地扩增。在34个体细胞缺失区域内没有已知的肿瘤抑制因子。


结果2 个体数据平台分析

突变分析

本文分析了TCGA数据库中的2258个患者样本的突变数据,来得到泛妇科肿瘤类型间的显著突变基因和有效突变过程。肿瘤类型间的平均突变差异很大,CESC样本有着更高的突变频率(5.3 mutations/mbp)。由于之前文献中描述的高突变,UCEC样本中显示出双峰分布。基于MutSigCV v.1.4识别的基因与先前方法(Vogelstein et al., 2013)识别的基因取交集,得到46个显著突变基因。4个最频繁突变的基因是TP53, PIK3CA, PTEN, ARID1A和PIK3R1。其中11种显著突变基因未在之前任何TCGA妇科或乳腺癌标记物文献中报道。其中,ACVR2A是转化生长因子b超家族的成员,其在肿瘤进展和抑制通路中起作用,是最常见的突变(4.8%)。LATS1是Hippo信号通路中下一个最频繁突变(3.8%),它控制组织大小,限制增殖,促进细胞凋亡,并且与多种癌症类型有关。CCAR1突变率为3.6%,其蛋白质产物作为p53共激活因子,在细胞增殖,凋亡,乳腺癌,雌激素依赖性生长中发挥作用。作者发现220名患者(10%)中没有检测到的显著突变基因。

突变特征

突变特征提供了肿瘤发展的机制,通过泛妇科肿瘤数据集上的非负矩阵因子分析表明,10个突变信号可以解释原始突变/样本矩阵中观察到的近90%的变异。10个泛妇科肿瘤的特征与30个COSMIC特征变异相关。S1与COSMIC特征13(r = 0.99)强相关,S2与COSMIC特征2相关(r = 0.95),两个特征都表明与胞苷脱氨酶的AID / APOBEC家族活性有关。S3与COSMIC特征1相关(r = 0.94),表明由5-甲基胞嘧啶的自发脱氨作用引发的内源过程。S4与COSMIC特征10是高度相关的(r=0.97),它反映了POLE活性的变化。在S10和COSMIC特征3之间发现较小的相关性(r = 0.58),其与生殖细胞和体细胞BRCA1和BRCA2突变相关。所有的相关性都是统计学显著的(p<>

基于每个特征贡献的无监督层次聚类将泛妇科肿瘤样本分成10个簇,这些簇显示出与各种分子/临床特征之间的关联。如下图所示:

簇C1高度富集在OV样本中(Basal亚型乳腺癌和UCEC有一小部分),对S10的贡献更强,与生殖细胞和体细胞BRCA1和BRCA2突变相关的特征,与PARP抑制剂和铂类疗法的反应相关。C1簇中还具有频繁的TP53突变和纯合子缺失,支持了与无效的DNA双链断裂修复的COSMIC标记之间的关联。C2簇中,含有BRCA,OV和UCEC样本,其与T> C替代的转录链偏向相关,含有BRCA和OV样本的C3簇与T> A突变的转录链偏向相关。C4主要由乳腺样本组成,并对S8有贡献,S8是与COSMIC 5最相关的特征。C5簇主要由具有高微卫星不稳定和MLH1,MSH2,MSH3或MSH6突变的UCEC肿瘤组成,对特征S6的贡献最大。S6与COSMIC特征6,15和20相关,其与缺陷DNA错配修复相关。C9簇包含CESC和BRCA样本,代表AID /APOBEC的特征S1和S2,为这些癌症中APOBEC诱变的富集提供了进一步的证据。C10簇与POLE-突变体UCEC样本相关。

体细胞拷贝数变异

Pan-Gyn数据的无监督层次聚类揭示了区分拷贝数谱的六个簇,区分簇的突出特征是显著拷贝数变异(SCNA)等。如下图所示:

其中OV,UCEC,UCS和basal-like,HER2 +和Luminal B乳腺癌几乎完全聚集在C4簇和C6簇中。相反,Luminal A乳腺癌和UCEC样本在所有簇中分开,为传统临床分类之外的其它肿瘤亚型提供了证据。C4和C6显示出高度的基因组拷贝数不稳定性,与TP53突变特征一致,并且包含大量的晚期癌症。与其他簇不同,C4和C6中超过50%的样本有至少一次的全基因组扩增。C3簇中占的大比例的CESC样本,并且独特地展示了致癌基因YAP1的11q22扩增。C2中有74%的UCEC含有大多数POLE突变病例,并且几乎没有扩增和损失。C1和C5主要由UCEC和Luminal A 乳腺癌组成,分别占两个簇中样本的85%和72%。总之,1q的扩增是最常见的染色体臂水平事件,在所有五种泛妇科癌症类型的49.5%的样本中发生。其他反复出现的臂级事件包括3q,8q和chr 20的扩增,以及4p,13q,16q,17p和22q的缺失。

DNA甲基化

所有Pan-Gyn肿瘤中2,586个癌症特异性,高甲基化位点的无监督聚类揭示了DNA甲基化模式的异质性。不出所料,除了两个组,来自相同组织(例如,OV,UCS或CESC)的肿瘤样本聚集在一起,通过聚类稳定性分析发现它们非常稳健。在研究中,C7(主要是CESC)在所有肿瘤类型中具有最高程度的高甲基化,其次是富含Luminal B 乳腺癌的C4,其也由HER2 +和一小部分basal-like乳腺癌组成。在肿瘤亚型(例如UCEC)中,DNA甲基化模式的异质性识别了在DNA错配修复通路中显示更大缺陷的样本。在同源修复途径是BRCA1和RAD51C两个基因的高甲基化和伴随的下调几乎仅在OV(分别为12.7%和3.0%)和basal-like 乳腺癌(分别为2.8%和2.6%)中观察到。

mRNA 分析

在2296个Pan-Gyn样本中,1860个先前识别的癌症基因的无监督层次聚类导致识别出具有不同临床病理学特征的9个mRNA簇。如下图所示:

其中C1和C2均富含BRCA,C2由大多数HER2 +和normal-like乳腺癌组成。 C2也显着富集浸润性小叶癌,而C4中超过95%的病例是basal-like 乳腺癌。C5主要由OV和UCEC组成,这与前面提到的相似。C7中超过50%的病例是UCS,并且鉴于其高EMT特征,C7因此可能表现出EMT特征。总体而言,即使在调整谱系后,Pan-Gyn mRNA亚型也显示出预后价值(p <>

特别是UCEC出现在九个簇中的五个簇中,并且在总体生存率方面表现出显著差异,这取决于簇成员。如下图所示:

作者还研究了哪些基因在簇中差异表达,ESR1和AR在C1和C2中显著高于其他组,而C3中具有高表达的SOX2。C7具有显著较低的经典上皮标志物CDH1的表达,这与EMT标志一致。如下图所示:

蛋白质组学分析

对216种蛋白质中的1,967个样本的蛋白质表达数据进行无监督的层次聚类,识别出5个簇。C1主要由非basal BRCA组成,C3富含UCEC,C4富含OV。有趣的是,C2和C5含有多种疾病类型的混合样本。C2中具有高水平的caveolin1,MYH11和HSP70蛋白,这些蛋白先前已被识别为Luminal 乳腺癌中的生物标志物。除Luminal 样本外,C2还包括一些basal-like BRCA,CESC,OV和UCEC样本。Cluster C5中包含大部分basal-like BRCA,CESC,UCEC,UCS和10%的OV样本。

miRNA分析

对2,417个样本中293个最易变的miRNA进行无监督的层次聚类,将样本通过疾病类型进行分组。然而,OV的miRNA谱与其他Pan-Gyn肿瘤类型特别不同。Basal乳腺癌样本与CESC(C6),UCEC和UCS样本(C4和C5)比C2和C3中的非basal 亚型BRCA更相似。

lncRNAs

本文处理了原始RNA测序数据以获取了1986个lncRNA。数据的无监督聚类显示六个簇(L1至L6)与基于蛋白质的簇(C1至C5)显著重合(p <>

其中BRCA和CESC具有非常相似的lncRNA谱,并在簇L2和L3中聚集在一起。UCEC(在L5中)和OV(在L6中)各自具有与BRCA和CESC不同的lncRNA谱。OV(31%)和UCEC(11%)样本的部分都存在于簇L4中。以前的研究表明雌激素受体(ERs)调控BRCA1,dyskerin(DKC1)和lncRNA TUG1的表达。ER结合DKC1的调节区域,以诱导或抑制多个lncRNA。如下图所示:

在本研究中,作者的分析揭示了关键lncRNA与其调节基因的转录本, ESR1,OIP5和DKC1之间的Pearson相关性,如下图所示:

通路分析

作者又进行了PARADIGM通路分析,然后进行无监督的通路分数聚类,主要通过组织类型对样本进行聚类。如下图所示:

Basal-like BRCA的一部分与C2中的UCEC和UCS的一部分聚在一起,而剩余的Basal-likeBRCA样本与C4中的非Basal-like BRCA聚集。与转录组分析相反,通路分析将大约一半的Basal-like BRCA样本与HER2 +和Luminal B样本聚集在一起。所有PARADIGM簇通过推断激活评估和通路富集都具有不同的高或低免疫相关信号模式,表明Pan-Gyn可以在免疫反应中发挥重要作用。

Pan-Gyn肿瘤类型间的整合分析

作者在Pan-Gyn中使用CoCA算法对来自六个主要TCGA平台(突变,SCNA,DNA甲基化,mRNA,miRNA和蛋白质)进行整合聚类。由此产生的CoCA簇主要由肿瘤类型支配。与肿瘤类型的关联在DNA甲基化,mRNA,miRNA和蛋白质簇中尤为突出。因此,我们用另一种方法来识别跨越Pan-Gyn肿瘤类型的亚型,并强调它们之间的高水平相似性。


结果3 Pan-Gyn肿瘤间的亚型

作者首先在1956个样本中确定了16个特征(在STAR方法中列出),其满足(1)目前在临床中用于5种肿瘤类型中的至少1种。(2)在之前的TCGA妇科和乳腺癌研究中被识别。接下来,我们聚类特征矩阵并获得5个簇。如下图所示:

SCNA是主要特征,并产生了第一个分区。在低SCNA组中,我们发现了两个簇,非超突变组(C1)和超突变组(C2)。非超突变组实际上没有超突变体,但具有高水平的ER +,PR +和/或AR +,表明对激素疗法的潜在易感性。C2,超突变组可以进一步细分为四个子群(群集C2A-C2D)。C3显示出比C4更好的存活趋势(p = 0.087)。C4显示低水平的AR和PR,并且具有BRCA1或BRCA2体细胞突变的亚群。C5具有高水平的三种激素受体中的至少一种,再次表明对激素疗法的敏感性。每个簇具有不同水平的样本来自每种疾病,减轻了组织特异性。如下图所示:

然后,作者对五个簇进行了总体生存分析,并获得了非常显著的生存差异(p<>

最后,我们使用二分法决策树方法来减少5种亚型中的1种所需的评估分子变量的数量。生成的树只需要指定原始16个特征中的6个。该树具有82%的准确度,可预测原始的基于16个特征的聚类,AUC=0.94。如下图所示:

作者又对决策树预测的簇重复了与原始簇相同类型的生存分析。结果发现,这些存活率与原始簇相当,5年生存率从85%(C1)到39%(C4),10年生存率从67%(C1)到14%(C4)。如下图所示:

参考文献

Caesar-Johnson S J, Demchok J A, Felau I, et al. A Comprehensive Pan-Cancer Molecular Study of Gynecologic and Breast Cancers[J]. Cancer Cell, 2018, 33(4).


有生信分析请留言

TCGA | 小工具 | 数据库 |组装注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多