【原】只要角度选的好！多数据库分子分型轻松上6分！

科研菌 2020-12-17

展开全文

Molecular subtyping reveals immune alterations in IDH wild-type lower-grade diffuse glioma分子分型揭示IDH野生型弥漫性低级别胶质瘤的免疫差异

一、研究背景

弥漫性LGG（低级别胶质瘤）的恶性程度相对于GBM（胶质母细胞瘤）较低，但也具有很强的侵袭性，而其中的IDH野生型弥漫性LGG据报道存在一定的异质性，但目前在对其进行分子分型的过程中界定的标准尚存争议，作者希望对其深入研究从而找到用于区分其分子亚类的生物标志。另外，作者还希望通过对LGG肿瘤免疫与预后的关系进行研究来为免疫治疗提供参考。

二、研究思路

三、结果解读

1.野生型LGG的分组

作者首先从CGGA数据库49个IDH野生型弥漫性LGG队列中以表达量绝对中位差>1为标准得到了表达量变化较大的2501个基因，并基于这些基因的表达情况进行了分层聚类，从结果中观察到病人可被分为基因表达存在差异的两个亚类，简称Sub1和Sub2（图1A）。

随后，作者使用主成分分析(PCA)进一步证实这两个亚类的表达谱存在显著差异(图1B)，生存分析结果提示Sub1的总生存期(OS)和无进展生存期(PFS)相对于Sub2较短(图1C)，而单因素Cox回归的结果（HR:0.339,p=0.022）也说明了两个亚类在预后方面的显著差异（表1）。

图1A.差异表达基因的分层聚类结果；图1B.Sub1和Sub2表达谱的主成分分析；图1C.Sub1和Sub2的生存分析

表1.CGGA和TCGA样本队列的单因素和多因素Cox回归分析结果

为了对上述结果进行验证，作者在独立于CGGA数据库的TCGA数据库73个IDH野生型弥漫性LGG队列中重复了上述分析，发现其差异基因、聚类、PCA以及生存分析的结果与从CGGA队列中得到的较为一致(图1D，E，F)。此外，单因素Cox回归的结果（HR:0.47,p=0.039）也与基于CGGA数据的分析结果类似（表1）。

图1D,E,F.TCGA数据中差异基因聚类、PCA以及生存分析得到的结果

2.亚类间生物学功能及免疫的差异

在初步证明IDH野生型弥漫性LGG可基于差异表达基因分为两个预后存在差异的亚类之后，作者进一步对亚类间其他方面存在的异质性进行研究。为提高筛选的针对性，作者通过另一种针对基因芯片数据的差异基因寻找方法——基因芯片显著性分析（SAM）得到了IDH野生型弥漫性LGG两个亚类的差异基因，并对这些基因进行了聚类（图2A，FDR<0.05）。对上述基因进行GO富集分析的结果显示Sub1中高表达的基因主要富集于免疫反应、炎症反应、抗原加工呈递以及IFN-γ介导的信号通路等生物学过程，而Sub2中上调的基因则主要富集于化学突触传递，神经系统发育等过程。此外，基因集富集分析（GSEA）的结果提示Sub1中病人的免疫及炎症反应较Sub2更强（图2C）。在TCGA数据中，作者重复了上述分析过程，得到了较为一致的结果（图3A，B，C）。

图2A.SAM筛选的差异表达基因聚类结果；图2B.差异表达基因的GO富集分析结果；图2C.差异表达基因的基因集富集分析结果

图3A,B,C.TCGA数据中SAM筛选的基因聚类、GO富集分析以及GSEA结果

初步发现两个亚类在免疫方面的差异之后，为进一步解释这两种亚类间的免疫异质性，作者首先分别计算了两个数据库样本队列的基质细胞与免疫细胞分数，发现Sub1两个分数都显著高于Sub2（图2D，3D），而肿瘤纯度分析结果也说明相对于Sub2来说Sub1有着相对较低的肿瘤纯度（图2D），提示其含有更多的免疫细胞。由于免疫细胞可以介导在天然抗肿瘤免疫中起重要作用的溶细胞反应，故作者又通过量化颗粒酶和PRF1的表达情况来评估两组间免疫细胞介导的溶细胞活性差异，结果与免疫评分及肿瘤纯度分析一致——Sub1肿瘤的溶细胞评分明显高于Sub2（图2E，3E）。依据早前文章提出的肿瘤炎症信号算法计算后，作者发现Sub1相对于Sub2炎症评分更高（图2F，3F），对人类白细胞抗原（HLA）的分析也发现HLA-A/B/C在Sub1中显著高表达（图2G,3G）。为探究肿瘤微环境中免疫细胞的分布情况，作者使用CIBERSORT算法计算了免疫细胞分数，结果显示Sub1肿瘤组织中M2巨噬细胞较丰富，而Sub2肿瘤组织中淋巴细胞、幼稚B细胞和浆细胞较多(图2H，3H)。

图2D,E,F,G,H.对CGGA数据Sub1与Sub2的免疫评分，溶细胞评分，炎症评分，白细胞抗原表达以及免疫细胞分数的差异分析

图3D,E,F,G,H.对TCGA数据Sub1与Sub2的免疫评分，溶细胞评分，炎症评分，白细胞抗原表达以及免疫细胞分数的差异分析

上述结果提示Sub1相较于Sub2的肿瘤免疫可能更强，这与Sub1对应的不良预后存在矛盾。为了探讨出现这种情况的原因，作者查阅了相关文献，得知T细胞和NK细胞衰竭可使癌细胞逃避宿主免疫从而导致不良预后，故作者分析了几种免疫细胞衰竭分子标记的表达情况(LAG3、CTLA4、PD1、PD-L1和HAVCR2)，发现上述分子大多在Sub1中存在高表达，提示Sub1存在免疫细胞衰竭。前文中的矛盾得以解释——虽然免疫细胞较多且溶细胞活性较强，但免疫细胞衰竭会导致Sub1中肿瘤的免疫逃逸，从而导致不良预后。

为进一步验证该解释的合理性，作者进行了实验验证——对CGGA队列的12个石蜡包埋组织样本基于一些经典标记物进行了免疫组化染色(CD163：M2巨噬细胞；GZMA：溶细胞活性；PD1和HAVCR2：免疫衰竭)，发现这些分子在sub1中均存在高表达，这样的结果也进一步佐证了上述解释。

3.与IDH野生型弥漫性LGG预后相关的免疫signature

因为免疫浸润在肿瘤发生发展中的重要作用，在证明Sub1与Sub2存在包括免疫状态在内的异质性后，有必要对免疫signature与预后的关系进行进一步探究。在对CGGA和TCGA数据库的数据结合免疫评分进行了生存分析后，作者发现在CGGA数据中溶细胞和炎症signature的高评分对应着更差的预后（图4A），而对于TCGA的数据，只有炎症signature的高评分显著对应更差的预后（图4B）。此外，相关分析发现溶细胞和炎症signature评分与巨噬细胞、CD8+T细胞、中性粒细胞以及激活的记忆CD4+T细胞显著相关（图4C）。另外，还发现上述两个signature评分与免疫抑制基因（PD-1，CTLA4）存在相关（图4D）。这些结果可以进一步佐证虽然Sub1有相对较高的免疫评分和较多的免疫细胞浸润，但是因为免疫抑制的存在，预后反而比Sub2更差。

图4A,B.基于免疫评分进行的生存分析；图4C.溶细胞和炎症signature评分与免疫细胞的相关分析；图4D.溶细胞和炎症signature评分与免疫抑制基因的相关分析

4.亚类间的体细胞突变差异

因为基因突变在肿瘤发生以及进展中起到的关键作用，作者随后分析了TCGA数据库IDH野生型弥漫性LGG两个亚类的体细胞突变以及拷贝数变异（CNVs）情况，以探讨这两个亚类在基因组层面的差异。

首先进行的体细胞突变频率差异分析的结果中未发现Sub1和Sub2存在显著差异(图5A)。但通过GISTIC 2.0进行分析后作者发现Sub1和Sub2拷贝数变化情况有显著差异——Sub1拥有更多的高频缺失突变位点，如CDKN2A/CDKN2B、DMRTA1、C9orf53和MTAP(图5B)。

图5A.Sub1和Sub2的基因突变情况；图5B.Sub1和Sub2的拷贝数变异情况

5.建立预后评估模型

在证实了两个亚类之间免疫与预后的关系之后，作者试图通过两个亚类间的差异表达基因建立一个预后评估模型。为达成目的，作者首先采用SAM分析得到了1453个差异表达基因(FDR<0.05)，对这些基因进行单因素Cox回归分析后得到了与患者预后相关的326个基因（图6A）。接着，作者使用glmnet这个R包精选用于预后评估的最佳基因(图6B)，最终构建了一个包含5个signature基因的预后评估模型，模型通过加权后的基因表达情况来计算患者的风险评分(图6C)。以风险评分的中位数为划分标准，作者将病人分为低风险和高风险组。在随之进行的KM分析中作者发现，高风险组患者的预后明显相对于低风险组要差(P<0.001，图6D)。

图6A.筛选出与预后相关的差异表达基因；图6B.模型建立中的调优参数选择；图6C.5个signature基因的热图展示

图6D.TCGA队列基于高低风险评分的生存分析

在CGGA队列中使用相同模型计算风险评分并分组后进行生存分析的结果与基于TCGA数据的结果一致(图6F，G)。

图6F.模型中5个基因在CGGA队列中的热图展示；图6G.CGGA队列基于高低风险评分的生存分析

作者另外还发现基因signature和病理特征之间存在联系——不同病理学分级、不同亚类（Sub1和Sub2）以及不同EM/PM分型病例的风险评分的分布有显著区别（图6E、H）。

图6E.TCGA队列风险评分在不同病理学分级、亚类以及EM/PM分型中的差异分析

图6H.CGGA队列风险评分在不同病理学分级和亚类中的差异分析

接下来，作者通过单因素和多因素Cox回归分析进一步评估了模型在预后评估中的独立性。与预期一致，先前获得的5个signature与患者总生存期显著相关，而与其它因素无显著相关(表1)。

随后，作者计算了依据风险评分、年龄和分组对预后进行预测的ROC曲线的AUC，发现依据风险评分进行预后预测的AUC明显更高(图6I)。这些结果证明了作者建立的模型在预后预测方面的优越性能。

图6I.用于预后预测的不同因子的ROC分析

6.模型在各类弥漫性胶质瘤中的应用

为验证上述筛选后得到的signature在各类弥漫性胶质瘤中的兼容性，作者选取了TCGA数据库的550个样本以及CGGA数据库的299个样本计算风险评分并进行生存分析。对全体样本的生存分析的结果与前文中一致——高风险评分对应更短的总生存期（补图7A,E）。当被病理学分级和分子亚型（IDH突变和1p/19q共缺失）分层后，作者发现高风险评分仅在部分LGG分子亚型中倾向于与更差的预后相关，而在GBM的各种分子亚型中未发现显著区别（补图7B,C,D,F,G,H）。说明上述signature的使用存在一定的限制。

补图7.各类弥漫性胶质瘤基于不同风险评分的生存分析

作者接下来比较了各类弥漫性胶质瘤高低风险组病人的基因表达情况来寻找二者的差异。对通过SAM寻找到的差异基因进行GO富集分析后作者发现高风险组基因在免疫反应，炎症反应以及IFN-γ介导的信号通路中富集，而低风险组基因在化学突触传递，神经递质及谷氨酸分泌等生物学过程中富集（补图8A,B）。GSEA的结果进一步确认了上述发现（补图8C,D）。相关分析发现这些signature与炎症、溶细胞signature以及免疫抑制基因（PD-1，CTLA4）存在相关（补图8E-L）。这些结果可能可以对弥漫性胶质瘤发生发展的研究提供一些参考。

补图8A-D.高低风险评分组的GO富集分析和GSEA；补图8E-H.风险评分与炎症评分、溶细胞评分以及免疫抑制基因的相关分析

我们可以简单总结一下作者的研究思路：首先初步证实IDH野生型弥漫性LGG存在一定的异质性，而后通过进一步研究发现其可被分为两个具有不同临床和生物学特征的亚类。而GO富集分析以及GSEA的结果提示两个亚类在包括免疫反应在内的一些方面存在差异。接下来，通过对免疫逃逸相关标志物的分析，作者解释了Sub1中免疫相关评分高但预后差的矛盾。再然后作者筛选出了5个signature基因建立了一个免疫相关的风险评估模型，并在IDH野生型弥漫性LGG数据中基于模型计算的风险评分进行了分层分析以及对模型进行了ROC曲线分析，证明该模型在预后评估方面的优越性能。最后，作者在各类弥漫性胶质瘤中使用上述模型计算风险评分并进行了生存分析，发现模型的使用尚存在一定局限性。另外，对各类弥漫性胶质瘤差异基因的筛选、GO富集分析、GSEA以及将风险评分与免疫评分和免疫抑制基因进行相关分析也有望为胶质瘤的发生发展进程的研究提供一些参考。

小结

作者这篇文章主要进行了肿瘤分子分型和免疫基因预后模型的研究，使用的CGGA和TCGA数据库的数据相互独立，并且在生物信息学分析的基础上增加了免疫组化实验，增加了文章论证的可信度。从论证的逻辑来说，分亚类→找差别→肿瘤免疫研究→免疫预后模型→模型验证评估这样的思路也很清晰，值得我们进行模仿。