分享

5+胶原蛋白+分型+预后模型,胶原蛋白结合泛癌的生信思路,发文空间大!!

 智汇基因 2023-09-04 发布于广东

导语

今天给同学们分享一篇胶原家族+预后模型+实验的生信文章“A five-collagen-based risk model in lung adenocarcinoma: prognostic significance and immune landscape”,这篇文章于2023年7月6日发表在NPJ Genom Med期刊上,影响因子为5.3。

细胞外基质(ECM)是肿瘤命运的关键决定因素,反映了肿瘤中各种细胞类型的输出。胶原蛋白是肿瘤ECM的主要组成部分。肿瘤中胶原蛋白组成的变化以及其对患者预后和可能的生物标志物的影响仍然大部分未知。

1. 胶原蛋白聚类可确定组织来源

单个胶原已被用作特定细胞类型和细胞状态的生物标志物,包括标记皮肤干细胞的COL17A1,作为肥大软骨细胞分化标志物的COL10A1,和作为软骨细胞分化标记物的COL22A1。这些发现表明胶原蛋白可以通过其来源组织来区分癌症类型。作者假设将所有的胶原蛋白结合在一起可以定义特定的癌症类型以及与分子特征的关联。图1a总结了测试胶原定义肿瘤组的分析方法,包括关键特征:评估胶原定义的肿瘤组与细胞状态和细胞遗传学之间的关系。为了验证这一想法,作者首先评估了9029个实体瘤TCGA RNAseq数据中的胶原亚型(图1b)。PanCancer胶原蛋白定义的k-means亚型,命名为PanColClusters,使用间隙统计法进行优化。7个PanColClusters是均匀的,而其他8个则相对不均匀(图1c)。PanColClusters与Hoadley等人通过多组学定义的28个iCluster高度一致。这些观察结果表明,胶原蛋白表达根据其来源组织对癌症类型进行分类,导致与其他方法相同的开创性观察结果。这些发现表明,肿瘤以胶原为中心的ECM特征保持了起源组织的特征。

图1 胶原mRNA表达对9029 TCGA实体瘤的PanCan聚类分析

2. 胶原蛋白的表达可以对肿瘤进行分类

作者使用k-means聚类算法对每个TCGA实体肿瘤癌症类型进行分类,包括COADREAD的组合,独立地进行了≥100例的分类(图2a)。通过轮廓和间隙统计分析,确定了每种肿瘤类型的最佳聚类数。每种癌症类型都确定了3-6个明确定义的聚类。作者将这些k-means定义的聚类称为胶原蛋白聚类(ColClusters)。基质比例估计是通过Thorsson等人的计算得出的非肿瘤细胞组分。

图2 通过胶原蛋白mRNA表达在TCGA中对每种癌症类型中的每个肿瘤进行聚类,形成ColClusters

由于COL1A1和原纤维胶原与基质分数的关系,ColClusters按基质分数排序,ColCluster1在每种肿瘤类型中具有最高的中值基质分数(图2b)。在所检查的14/26种癌症类型中,ColClusters 1和2之间的基质分数差异不显著(图2b),8/26种癌症类型的ColCluster-2与ColCluster1相比具有相似的间质部分,只有3/26种ColCluster3与各自的ColCluster1相比较具有相似的基质部分。具有相似水平的高原纤维胶原表达的ColClusters是由特定胶原(通常是次要胶原)的明显和强烈差异定义的(图2a)。具有高基质分数的ColCluster 1并不总是具有纤维胶原最高表达的亚型(图2a)。例如,食管癌(ESCA)ColCluster-C4(ESCA-C4)具有高表达的原纤维胶原,但与其他ColClusters相比具有相似的基质部分。

大块肿瘤样本中胶原mRNA的表达是多种细胞类型(包括成纤维细胞、巨噬细胞和肿瘤细胞)复杂贡献的结果。作者评估了基质分数、ColClusters和胶原表达之间的关系,以测试胶原组成是否与基质分数相关。胶原蛋白和间质分数之间的关系在每个肿瘤环境中都有所不同。由于I型胶原蛋白是主要的胶原蛋白,通常由成纤维细胞和间质细胞高度分泌,除3种癌症类型外,COL1A1与所有类型的间质分数呈正相关。许多其他原纤维胶原,包括III型、V型、XI型和XIV型,即I型胶原纤维宽度和结构的调节因子,中风和胶原表达也呈强正相关。然而,值得注意的是,即使在具有相似基质组分的ColClusters中(图2b),观察到显著的胶原表达差异,表明总胶原组成和基质部分是不同的特征。此外,许多非原纤维胶原,包括VII、VIII、IX、COL4A5、COL4A6和其他类型的胶原,仅与基质部分适度相关。这一观察结果,以及本研究中的其他发现,突出了胶原成分与基质成分在表征肿瘤方面的不同特征。

许多胶原蛋白在ColClusters和癌症类型中具有≥10倍的动态范围,这表明ColClusters的定义明确。特别地,次要的胶原如COL7A1、COL10A1、COL17A1和IX型胶原具有大的动态范围。这些胶原蛋白在正常组织中具有非常特异的表达,但在许多癌症类型中表现出失调的表达,尽管在每种癌症类型中通常只有一小部分肿瘤(图2a)。包括IX型胶原和COL4A5/6在内的其他高动态范围胶原标记了许多特定的ColClusters(图2a)。一些大脑特异性胶原蛋白有助于定义ColClusters。脑特异性胶原COL20A1仅在神经元谱系肿瘤(GBM、LGG、PCPG和TGCT)中显著表达。COL25A1是一种跨膜胶原,通常在脑组织和发育中的成肌细胞中表达。

6个基因表达IV型胶原蛋白,它是基底膜的主要成分。每对IV型胶原蛋白(COL4A1/A2,COL4A3/A4和COL4A5/A6)都是从共享的分歧启动子共同调控的。IV型胶原蛋白在癌症类型之间和内部都表现出很大的表达动态范围(补充图3),定义了PanColClusters和ColClusters。104个ColClusters中的26个是由其中一个COL4对的高表达定义的,包括除前列腺腺癌(PRAD)之外的所有癌症类型。COL4A1/A2和COL4A3/A4的突变会产生不同的小鼠表型,这些观察结果表明在这些肿瘤中存在不同的功能。这些COL4基因在肿瘤中的作用和关系仍然不明确。这些观察结果表明,表达异常的COL4基因之间存在复杂的关系。

3. 总生存期

在许多癌症中,单个胶原蛋白和ECM与总生存率有关10。对ColClusters定义的各组的生存相关性进行了评估,并确定了许多不同的模式。在13/26种癌症类型中,ColClusters与总生存率显著相关,Kaplan–Meier分析的p值≤0.05。每个集群中由单变量Cox比例危险衍生的危险比总结如下(图2c)。KIRP和STAD的代表性Kaplan–Meier曲线突出了高风险和低风险患者的显著分离(图2d)。在Kaplan–Meier分析中,具有相对较高基质组分的ColClusters通常偏向于较低的总生存率。在具有显著ColCluster分离的13种癌症类型中,在10种癌症类型中,C1是最高的,或者是最高的风险之一。值得注意的是,COL1A1在19/26癌症类型的ColClusters中的C1中表达最高。多因素cox比例风险分析显示,在许多癌症类型中,ColClusters与基质分数和分期无关。总之,这些观察结果表明,胶原定义的肿瘤ECM的特定组成与多种癌症类型的总生存率相关,与总间质部分和分期无关。

4. ColClusters的泛癌分析

PanColClusters和ColClusters的结合有助于定义和识别肿瘤独特的胶原蛋白特征。对于一系列异质性PanColClusters中的肿瘤类型,特定的ColClusters通常与不同的组织来源有关,突出了一系列ECM、胶原蛋白和表型(图2e)。

鳞状细胞是许多BLCA、ESCA和LUSC肿瘤的特征。PanCan-C1是泛鳞状细胞组(图。(图1c)。该组通过少量胶原的表达来区分,包括COL4A5/COL4A6、COL7A1和COL17A1。据报道,COL17A1是一种鳞状细胞标志物27。COL17A1和COL7A1均参与大疱性表皮松解症。尽管大多数LUSC肿瘤位于PanCan-C1:Squamous,但LUSC-C4是一组LUSC肿瘤,其特征是COL4A3/COL4A4的高表达,类似于LUAD,并定位于PanCan-C3:LUAD组。膀胱腺癌(BLCA)分为C1:泛鳞状和C10:混合亚型。BLCA-2 ColCluster中的所有肿瘤都在PanCan-C1中,而C10:混合映射到BLCA-C3、C4和C5。因此,胶原表达可区分BLCA的组织学特征 。

卵巢肿瘤(OV)分为2个PanColClusters,PanCan-C4和PanCan-C11。尽管OV ColClusters与总生存期无关,但这些发现表明,高I型胶原、原纤维胶原和高基质OV-C1组与许多总生存期相对较长的肉瘤(SARC)肿瘤相似,而OV-C2和OV-C3与SARC-C4聚集,SARC组总生存期较短,由少量胶原COL2A2和COL4A5/A6定义。由于TCGA中的肉瘤是多种肿瘤的集合,作者发现胶原聚集确定了TCGA肉瘤的起源组织和组织学。总之,这些发现突显了胶原蛋白表达如何识别具有相似环境,甚至不同组织来源的肿瘤。PanColCluster-C4也以其他原纤维胶原的相对高表达为标志,类似于PanColCluster-C5。C4和C5的区别在于少数少量胶原的差异,其中C4具有较低的COL4A5/COL4A6表达和较高的COL12A1表达。

5. 胶原表达对肿瘤的分类与整个母体基因集相似

胶原是母体中最丰富的成分。许多小组已经研究了由大型母体基因集定义的分类。作者使用890个母体基因比较了仅胶原蛋白聚类与分类的对应关系。这些观察结果表明,胶原表达单独捕捉了基于ECM特征对肿瘤进行分类的开创性特征。与所有母体基因相比,用较小的基因集来表征肿瘤,例如43种胶原蛋白,可以提高生物标志物在患者中的实用性。

6. 突变率和MSI状态

作者评估了胃腺癌(STAD)、结肠癌(COAD)和子宫内膜癌(UCEC)中ColClusters的总体突变率和微卫星不稳定性(MSIH)之间的关系。MSIH肿瘤定位于高基质部分和原纤维胶原亚型COAD-C1、STAD-C2和UCEC-C1。值得注意的是,STAD-MSS肿瘤的一个子集与MSIH肿瘤一起被放置在STAD-C2中,因为它们具有相似的胶原组成,尽管突变特征大不相同(图3a),表明来源于不同基因型的ECM表型趋同。

图3 在特定ColClusters中富集的突变率和体细胞突变

在COAD-C1和COADREDE-C1中鉴定出一组具有与MSIH COAD肿瘤相似的胶原组成的COAD MSS肿瘤。COAD-C1和COADREDE-C1中的MSS和MSIH肿瘤具有相似的表型特征,但基因型非常不同。一些MSIH肿瘤根据其胶原成分与MSS肿瘤分为其他COAD和COADRAD ColClusters。

7. 体细胞突变

基于分子改变的靶向肿瘤会受到不同的反应,患者之间通常不清楚原因。作者假设胶原蛋白可能表明分子改变对肿瘤影响的上下文差异。为了验证这些想法,作者评估了ColClusters是否富集了前50个最常突变的基因,如cBioPortal中列出的26种癌症类型。作者还纳入了ABL1,AKT1,AKT2,ALK1,BRCA1,EGFR,ERBB2,FGFR1,FGFR3,FLT3,HRAS,JAK2,KIT,MET,NRAS,PDGFRA和RET的变体,在某些情况下已知的关键驱动因素。图3b,c显示许多突变基因在ColClusters中显着偏倚。

在基因变异中观察到两种一般类型的模式:1)相对于其他ColClusters,一个ColCluster对特定分子改变具有强烈的正富集或负富集,这表明特定ECM与特定分子改变之间存在联系。2)多个ColClusters具有相似的候选驱动因素或抑制因子的遗传图谱,这表明这些基因型与这些环境中的多样化胶原蛋白组成有关。

作者描述了在特定ColClusters中富集的几个代表性例子。TP53是最常见的突变基因,与ECM30的重塑有关。TP53在BLCA、BRCA、GBM、HNSC、LGG、LUAD、SARC和UCEC中的ColClusters中显示出不同且显著的偏向性模式(图3b)。这些观察结果突出了胶原蛋白组成如何在相似或不同的分子变化下发生巨大变化。特定的分子改变相对于胶原表达模式是可区分的。

作者强调了模式1的例子,其中特定的分子改变定位于一个或两个ColClusters,除了UCEC-C4,其富含P53错义变体(图3)。这些模式突出了遗传特征与特定胶原蛋白组成之间的联系。

PTEN截短在所有UCEC ColClusters中富集(图3),除了富集P53错义变体的UCEC-C4(图3)。肝肿瘤中的Wnt信号传导通常被CNNTB1突变激活。与LIHC-C2和LIHC-C3相比,具有CTNNB1突变的肿瘤在LIHC-C1中的发生率显著降低(p<0.001),即使总体突变率相似。与LIHC-C2和LIHC-C3相比,LIHC-C1通过更高的原纤维胶原表达来标记。

7例IDH1突变肿瘤位于GBM-C3。LGG-C1和LGG-C2富集IDH1野生型肿瘤,并且与较短的总生存期相关。这些发现强调了脑肿瘤中胶原环境和IDH1/2突变状态之间的联系。

LGG和GBM之间的显著差异之一是IV型胶原成分的变化,这与大脑环境中的血管形成有关。与GBM相比,LGG肿瘤具有较低的COL4A1/2表达。与其他LGG肿瘤相比,COL4A1/2表达相对较高的LGG肿瘤,并且也富含突变IDH1/2,与COL4A1/2水平较低的野生型IDH肿瘤相比,可能具有不同的血管系统。这些发现将血管系统的多样性与胶原组成的多样性联系起来。

胶原聚类鉴定了一组具有FGFR3突变的肿瘤(图3)。BLCA肿瘤中的胶原聚集是FGFR3突变模式1的例证。FGFR3的突变与侵袭性较低的膀胱肿瘤有关,并定位于BLCA-C5,以COL4A5/COL4A6和COL10A1的高表达为标志,原纤维胶原的表达相对较低,并且在5个BLCA ColClusters中HR最低。

BRCA ColClusters中变体的分布体现了这两种模式。胶原聚集将肿瘤分为PIK3CA(BRCA-C1和BRCA-C3)和TP53突变组(BRCA-C2和BRCA-C4)。BRCA-C1、C3和C5在激素阳性肿瘤中富集,而BRCA-C2和C4在三阴性乳腺癌(TNBC)中富集。BRCA-C2和C4具有相似的IV型胶原水平,但IX型胶原和COL2A1的差异表达。这是模式2的一个例子,其中相似的分子改变具有不同的肿瘤ECM组成。同样值得注意的是,许多TNBC肿瘤因其常见的胶原环境而被归类为激素阳性BRCA肿瘤。

在特定癌症类型中以高比率突变的基因在ColClusters中以不同的模式分布,例如模式2。UCEC中的ARID1A、COAD中的KRAS和TP53定位于多个ColClusters(图3b)。这些具有相似假定驱动因素的ColClusters具有不同的胶原环境,与长期和短期总生存率的关系不同(图2d)。

肿瘤抑制剂的变体也显示出显著的偏倚。RB1截短的肿瘤是大多数肿瘤或偏向于BLCA-4、LUSC-C2/C3和SARC-C3。相对于每种癌症类型的其他肿瘤,这些肿瘤中RB1的损失与独特的胶原环境有关。据报道,RB1介导细胞周期、粘附和肿瘤微环境。

PAAD-C1的突变率较低,包括KRAS突变的肿瘤比例较低,但这可能是因为这些病例中基质比例较高,肿瘤细胞总体百分比较低。对TCGA中KRAS突变率的重新评估显示,TCGA测序分析中遗漏的KRAS突变预计会很高37。值得注意的是,与其他ColClusters相比,由高原纤维胶原表达定义的PAAD-C1在基质部分仅具有适度差异(图2b)。

8. 基因拷贝数变异

作者使用TCGA提供的拷贝数调用,评估了在26种癌症类型中观察到的最常见的基因拷贝数异常(CNA)在ColClusters中的偏倚。根据cBioPortal,作者选择了CNA最多的前50个基因。基因水平CNA在除COAD外的所有癌症类型的ColClusters中显示出不同的分布。图4显示了富集于ColClusters的某些癌症类型的基因CNA。


图4 在基因和染色体臂水平上的拷贝数改变(CNAs)在特定的ColClusters中富集

重点介绍了一些例子。Myc的扩增在10种癌症类型中显示出偏向性分布。值得注意的是,除LIHC和OV外,Myc扩增在大多数ColCluster-1中均未富集。在BRCA-C2和BRCA-C4中,MYC和RAD21的扩增富集。86%的TGCT肿瘤显示KRAS的拷贝增加,然而,KRAS拷贝增加在TGCT-C1中负富集。在包括GBM在内的9种癌症类型中,EGFR拷贝增加显著偏向。OV肿瘤具有高水平的CNA,但突变率相对较低。值得注意的是,尽管三个OV ColClusters具有相似的整体非整倍性。然而,OV肿瘤的胶原分类确定了将CNAs与ECM联系起来的特定肿瘤组。与OV-C3相比,OV-C1和OV-C2中的特异性CNA是不同的。OV-C3富集SOX2拷贝增益,而OV-C1富集AGO2、MYC和RAD21拷贝增益。OV-C1和OV-C2在MYC中的增益显著富集,而OV-C3在CDK4和KRAS中富集。OV和其他癌症类型的不同CNA突出了局部肿瘤微环境和分子遗传学之间的关系。

肿瘤抑制剂,如细胞周期调节剂CDNK2A和MTAP,在包括GBM-C1和C4、ESCA-C2和C4以及BLCA-C5的特定ColClusters中显示拷贝数损失。SARC-C1富集MDM2、CCNE1和CDK4增益。这些发现揭示了控制细胞周期的分子改变与胶原环境之间的联系。

9. 染色体拷贝数变异

作者评估了癌症类型中至少有10个CNA的染色体臂CNA。在许多肿瘤环境中,许多染色体臂CNA在ColClusters中的分布存在显著偏差。癌症类型的选择如所示(图4c)。在BRCA、ESCA、HNSC、KIRC、KIRP、STAD、THYM和UCEC中观察到跨多条染色体富集≥3个拷贝数变化的ColClusters(图4)。一些ColClusters具有高水平的增益和损耗,包括:COAD-C3、LIHC-C2、LUAD-C3,STAD-C3、STAD-C5、THYM-C3和UCEC-C4。其他人则倾向于收益或损失,包括BRCA-C2和C4、KIRP-C3和PAAD-C4。

在许多癌症类型中,染色体臂水平CNA定位于特定的ColCluster,包括CESC(1q增加)、COAD(1p损失)、GBM(9p损失),HNSC(11q损失)、LGG(1q获得,19q损失),PAAD(17p,18q增加),PCPG(3p损失)和SARC(10q损失)。在多种癌症类型(包括BRCA、BLCA、ESCA、HNSC、LUSC和STAD)的ColClusters 3p缺失中,一些染色体臂级CNA具有强烈的偏向性。90%的KIRC肿瘤有3p缺失,但那些没有的肿瘤几乎都在KIRC-C3中(图4)。ESCA-C2富集8p增益,而ESCA-C1和ESCA-C3富集18q损失。)。10p损失在LGG-C1和LGG-C2中富集,而19q损失仅在LGG-C5中富集。这些发现表明,胶原蛋白表达与染色体臂CNA之间存在特定关系,将癌症基因组与肿瘤ECM连接起来。

图5 胶原蛋白表达预测CNA

为了测试染色体拷贝数变异与胶原表达之间的特定关系,作者实现了一个支持向量机(SVM)模型,仅基于胶原mRNA表达来预测染色体臂CNA状态。在模型中加入基质部分对模型预测只有适度的改善。在染色体臂CNA≥10例的癌症类型中,作者通过5倍交叉验证来测试模型的质量。作者使用受试者工作特征(ROC)的曲线下面积(AUC)来评估每个肿瘤环境中的模型性能(图5a)。例如,SVM模型预测了59%的癌症类型的3p损失,其中至少有10例3p损失(AUC>0.75)。这表明在多种癌症环境中,胶原蛋白成分与3p损失密切相关。5q和9q的损失在多种癌症类型中也被很好地预测。这些联系表明,在特定胶原蛋白定义的ECM环境中茁壮成长所需的潜在遗传适应。

10. 与非整倍体相关的胶原亚型

CNAs的这些观察结果表明,ColClusters中的倍性、基因组加倍和非整倍性之间也可能存在关联。非整倍体与一系列治疗反应和患者生存风险有关,具体取决于环境。作者评估了非整倍体与胶原亚型之间的关系。通过Kolmogorov-Smirnov检验评估,12种癌症类型在ColClusters中的分布发生了显著变化(图5b)。一些癌症类型,包括BLCA、COAD、LUAD、STAD和UCEC,显示出非常强的偏倚,大多数高或低非整倍体肿瘤分为1或2个ColClusters。值得注意的是,这些癌症类型中的许多在ColCluster中具有高度非整倍体肿瘤,纤维胶原的表达相对较低。为了强调这一发现,将ColCluster非整倍体水平标准化为ColCluster 1(图5b)。

特定的ColCluster非整倍体分布模式在某些癌症类型中相当显著。在STAD中,两个ColClusters,STAD-C3和STAD-C5,具有相对较高的非整倍体,但具有显著不同的总生存率和胶原表达模式(图2e)。STAD-C3的高非整倍性肿瘤的中位总生存期为14.4个月,而STAD-C5的高非全倍性肿瘤为37.5个月。同样,总生存期最短的UCEC-C4富含高非整倍性肿瘤,但许多其他高非整倍数性肿瘤分布在其他3个UCEC ColClusters中。这些观察结果表明,UCEC-C4中的高非整倍性肿瘤是一组具有不同胶原成分的侵袭性高非整倍数性肿瘤(图2d)。这些观察结果表明,非整倍体和胶原成分的结合可能解释了一些令人困惑的观察结果,即非整倍性并不总是与更差的结果相关。

11. 胶原表达模式预测非整倍体水平

为了进一步探讨胶原表达与非整倍体之间的关系,作者使用SVM模型来测试胶原表达是否可以预测肿瘤中的非整倍性水平。作者用Gaussians对非整倍体评分进行建模,将评分分为高和低两类。SVM通过接收算子特征(ROC)分析预测了曲线下面积(AUC)≥0.8的9种癌症类型的非整倍体状态(图5c)。其他癌症类型的许多AUC非常接近(图5e)。对每种胶原蛋白重量的评估表明,每种癌症类型都有特定的胶原蛋白表达模式(图5d)。

作者比较了从胶原表达到ColCluster非整倍性富集的非整倍体水平的SVM预测。一些癌症类型,包括ESCA、LIHC和OV,在ColClusters中没有显示非整倍性得分的偏差分布,然而,SVM准确地预测了非整倍体水平(图5e)表明胶原表达与非整倍体之间存在关系。其他癌症类型,如SARC和UCEC,显示ColCluster富集,具有合理的SVM预测,AUC分别为0.73和0.74(图5e)。在相关指标、基因组加倍和倍性方面观察到SVM模型的类似性能。

总之,这些观察结果有力地支持了癌症基因组和胶原蛋白表达之间的关系。他们进一步暗示,并非所有的非整倍体肿瘤都具有相似的特征。应该考虑非整倍体和ECM的结合来了解肿瘤进展和治疗选择。

12. 免疫细胞浸润因胶原环境而异

肿瘤ECM通过多种机制是免疫细胞浸润的关键调节因子,包括机械阻断、基底膜胶原的血管生成或刺激特定信号通路。来源于Tamborero等人的免疫细胞表达特征的富集通过QuSAGE确定,以确定与其他ColClusters相比,每种细胞类型富集的ColClusters。调节性T细胞和巨噬细胞在许多高基质ColCluster 1中富集。与其他ColClusters相比,9/26 ColClusters 1的T-regs最高,这表明这些免疫抑制细胞与纤维胶原高表达的肿瘤之间存在联系。这些观察结果表明,肿瘤胶原成分是将免疫细胞浸润与肿瘤和总生存率联系起来的关键特征。

BLCA和STAD强调了胶原表达与免疫细胞浸润之间的关系。BLCA-C1和BLCA-C2具有相似水平的基质部分,以及许多原纤维胶原的表达,但显示出不同的免疫细胞浸润模式。BLCA-C1富集活化的CD8 T细胞、B细胞和调节性T细胞,而BLCA-C2富集aDC细胞。这些观察结果将特定的胶原蛋白定义的肿瘤类别与免疫细胞浸润模式联系起来。STAD-C1和C2具有相似的基质组分(图2b),但免疫环境明显不同。STAD-C1可能更具免疫抑制性,具有更高的T-reg浸润,而STAD-C2可能更具免疫力,具有活化树突状细胞(aDC)的富集和炎症基因特征的更高表达,与STAD-C2相关的较长总生存期一致(图2c)。

为了评估每个ColCluster的全球免疫环境,作者确定了Thorsson等人定义的6种免疫类型在除2种癌症环境外的所有环境中的显著偏差分布(图6)BRCA-C2和C4富集了“IGFN-γ”免疫组,类似于所有3个OV ColClusters和UCEC-C4。这些组具有高水平的结构变异和高非整倍体水平(图4)LGG-C2具有更像GBM的免疫环境,因为与免疫型C5中其他4个LGG-ColClusters中的大多数肿瘤相比,它富含“C4淋巴细胞耗竭”,“免疫安静”。LUAD-C3和C4富集免疫型C3“炎症性”,而其他LUAD ColClusters富集免疫型C1和C2。LUSC-C4偏向于免疫型C2,而其他的则分为免疫型C1和C2。UCEC表现出与免疫型C2不同的模式,“IFN-g显性”,在高非整倍性UCEC ColCluster-4中强烈富集,而其他3个UCEC ColClusters偏向于免疫类型C1,“伤口愈合”。LIHC和SKCM的ColClusters在免疫类型上有明显差异。在一些癌症类型中,在多个ColClusters中观察到相同的免疫类型,包括COAD、COADRED、GBM、LGG、PRAD和THCA。在其他癌症类型中,包括BLCA和BRCA,多种免疫类型在所有ColClusters中的分布相似,仅观察到细微的偏差。与其他STAD和UCEC ColClusters相比,包括STAD-C3和UCEC-C4在内的高非整倍性ColClusters富集了不同的免疫类型。这些观察结果表明,胶原蛋白的组成与特定的免疫环境有关。

图6 ColClusters的免疫环境和特征

13. 与癌症特征相关的胶原亚型

为了评估每个ColCluster中富集的生物学特征,使用Qusage评估50个分子特征数据库(MSigDB)癌症标志基因集(图6b)。Qusage确定了ColClusters,其中每个基因集相对于其他ColClusters最富集。在原纤维胶原高表达的ColClusters中,19个富集了各自癌症类型中数量最多的标志性基因集。

特别是TGFβ和EMT与原纤维胶原和高基质ColClusters的表达有关。在无数的模型中。作者研究了高基质分数ColCluster-1与这些特征之间的关系。13/26 ColCluster-1在TGFβ信号传导中最高。EMT在ColCluster-1中最高,包括BLCA、CESC、COAD、COADRED、GBM、HNSC、KIRC、KIRP、LIHC、LUAD、LUSC、OV、READ、STAD、THCA和UCEC。在这些癌症类型中,ESCA-C4、LGG-C2、PAAD-C2、PCPG-C2、SARC-C2、TCGT-C4、THYM-C3的EMT和原纤维胶原基因表达相对较高(图6b)。在19种癌症类型中,血管生成标志基因集与高I型胶原和原纤维胶原表达ColClusters相关。

并不是所有的标志性基因集都与高原纤维胶原表达有关,因为许多基因集在整个ColClusters中显示出特定的模式,并且在其他ColClusters中富集。胆汁酸可能降低对胶原的粘附。除BRCA-C3、KIRP-C1和TGCT-C4外,大多数癌症类型中QuSAG值最高的胆汁酸代谢富集于除高纤维胶原ColClusters外的ColClusters。另一个例子是Myc调节的表达。包括BRCA-C2、BRCA-C4、STAD-C3在内的ColClusters具有相对高的Myc靶基因集表达,与这些集群中的Myc扩增一致。这些观察结果将不同的途径与较低纤维胶原环境ColClusters联系起来。

14. 非整倍体肿瘤背景

据报道,非整倍体对肿瘤具有上下文依赖性影响,包括与总生存率的不清楚关联。与非整倍体水平相关的ColClusters以及SVM模型确定了非整倍性和胶原组成之间的关系(图5)。在许多ColClusters中对高和低非整倍体肿瘤的评估揭示了与总生存率的相关性(图7),这表明胶原蛋白为非整倍体水平相对较高或较低的患者的预后提供了一些背景。

图7 ColClusters与非整倍体相结合可识别在胶原定义的环境中与总生存率相关的肿瘤

例如,具有高非整倍体的膀胱尿路上皮癌(BLCA)肿瘤通过胶原成分的总生存率来区分,而低非整倍性的BLCA肿瘤没有通过总生存率进行区分。在高和低非整倍体肿瘤之间观察到BLCA-C4的总生存率有很大差异,BLCA ColCluster的总生存期最低(图2)。BLCA-C4由COL2A1、COL4A3和COL11A2等的组合标记。对肝细胞癌(LIHC)也进行了类似的观察,这是由于高和低非整倍体肿瘤之间的LIHC-C3的总生存率差异很大。这些观察结果确定了区分高和低非整倍体肿瘤的背景。与癌症类型的所有肿瘤相比,一些胶原蛋白环境对总体存活率没有显著影响,维持了相似的模式。

其他癌症类型在结合非整倍体和胶原成分时表现出不同的分离模式。LUSC举例说明了高非整倍性肿瘤的总生存率是如何依赖于胶原成分的。LUSC-C4中的高非整倍体肿瘤具有相对较低的风险,而LUSC-C5中的高异倍体肿瘤患者具有较高的风险(图7)。高非整倍体UCEC肿瘤的总生存率较低,但UCEC-C4强烈区分了高和低非整倍性肿瘤。UCEC-C4中的所有少量低非整倍体肿瘤仍然存活(图7)。这些发现突出了胶原成分如何影响具有高和低非整倍体的肿瘤。

15. 整合数据

考虑到具有相似胶原蛋白组成的ColClusters,通过在癌症类型中分组为相同的PanColClusters来突出显示(图1c)揭示了对这些肿瘤的新见解。这些组中分子改变和细胞特征的范围突出了可能的相似特征,可以考虑靶向癌症类型。例如,具有相对较短OS、SARC-C4、STAD-C3、UCEC-C4的高非整倍性ColClusters与以许多拷贝数增加为特征的BRCA-C2一起被分组在Pan-Gyn、PanCan-C11组中。相反,较长的OS STAD-C4组映射到具有BLCA-C3、BLCA-C5、ESCA-C3、KIRP-C3和OV-C2、C3的异构PanCan-C10组;均具有相对较低水平的非整倍体,以具有较低原纤维胶原表达的IX型胶原表达为标志。这些发现表明,来源于一系列组织的肿瘤具有高度的非整倍性和相似的胶原组成。胃肠道(GI)肿瘤中的一组ColClusters富集了非整倍体水平较低、原纤维胶原(包括COL1A1)高表达但总体生存期相对较短的肿瘤,包括COAD-C1、PAAD-C1和STAD-C1。

作者重点介绍了一些ColClusters,其中将遗传学、环境和胶原成分聚类相结合,揭示了治疗和生物标志物开发的新机会。STAD-C5包括具有高和低非整倍体的肿瘤的混合物,这些肿瘤被分类在一起,具有相似的胶原表达谱。这些肿瘤富含Wntβ-儿茶素信号特征(图6)。与其他STAD ColClusters相比,STAD-C5的总生存期更长。BLCA-C1和BLCA-C2具有相似的原纤维胶原和基质部分的表达。BLCA-C2以COL17A1表达为标志,包括许多鳞状肿瘤。BLCA-C1富含EMT和血管生成标志性基因集,而BLCA-C2富含27个标志性基因组,相比之下,BLCA-C1中有4个基因集以及5个Qusage评分相似的基因集。BLCA-C5富含FGFR3突变,并且Notch标志性基因集最高。Notch可能是一种肿瘤抑制途径,并且与BLCA-C5中总生存期最长的患者一致。BLCA-C3和BLCA-C4的区别在于少量胶原和较低水平的原纤维胶原表达。BLCA-C3富含胆汁酸代谢,而BLCA-C4富含细胞周期调节,并且在BLCA ColClusters中具有最短的总生存期。高非整倍性肿瘤明显分散在许多UCEC ColClusters中。高非整倍性UCEC-C4 ColCluster富含Notch信号以及DNA修复和增殖基因集,这表明在这类肿瘤中,通过遗传学、胶原蛋白组成和肿瘤表型的独特组合,有可能进行治疗性开发。

总结

这项研究表明,高表达和失调的小胶原蛋白标记了肿瘤的多个方面,并且可能成为肿瘤生态系统和疾病进展的有用生物标志物。总之,ECM和胶原蛋白对分子变化和浸润的免疫细胞具有影响,这可以被考虑用于改善治疗结果的预测。综合这些发现,表明癌细胞状态与特定的胶原蛋白定义的ECM相关,这意味着ECM状态是正确靶向肿瘤的关键因素。




    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多