【原】你也可以学得会的8分+多组学预后预测模型套路

科研菌 2020-12-17

展开全文

Independent validation of early-stage NSCLC prognostic scores incorporating epigenetic and transcriptional biomarkers with gene-gene interactions and main effects结合表观遗传和转录生物标志物的基因-基因相互作用和主要作用的早期非小细胞肺癌预后评分的独立验证

一、研究背景

DNA甲基化是一种可遗传，可逆的表观遗传修饰，可影响DNA的空间构象并调节基因表达，它和基因的表达差异均可作为非小细胞肺癌（NSCLC）的生物标志物。除了生物标志物的主要作用main effect外，肿瘤进展还受到基因-基因（G×G）相互作用的影响。而多组学数据的大规模综合分析可以确定具有主要作用和基因-基因相互作用的基因，在此基础上可以构建更准确的NSCLC预后模型。

二、分析流程

三、结果解读

1.DNA甲基化数据和基因表达数据的获取与质量控制

作者对五个国际研究中心（哈佛，西班牙，挪威，瑞典和TCGA）的DNA甲基化数据和四个GEO数据集和TCGA的基因表达数据进行研究，样本均为早期（I或II期）肺腺癌（LUAD）和肺鳞状细胞癌（LUSC）样本。处理甲基化数据时，剔除了detection p-value大于0.05、变异系数小于5%、SNP相关、性染色体上、发生交叉反应的探针。由于使用的Illumina beadarrays是由两套探针使用不同的杂交方法测定的，所以作者进一步处理了甲基化信号，用R包minfi进行归一化，lumi包进行I型和II型探针校正，sva包的ComBat函数处理批次效应。完成一系列数据预处理后，分析中包括了1,230名患者（N发现队列=613，N验证队列=617），其中有12,806个CpG探针。

处理转录数据时，同样进行了质量控制，ComBat处理批次效应，并对表达值进行log2转化和标准化，鉴定出满足要求的719个基因探针。接下来作者利用12,806个CpG探针和719个泛癌相关基因的表达数据作为训练队列，具有两种组学数据的TCGA作为验证队列。

补充图1.研究设计和统计分析流程图

2.表观遗传和转录分析鉴定NSCLC预后生物标志

对于Main effect的分析，作者使用R包SIS进行了SIS和LASSO Cox回归来筛选与生存相关的生物标志物。SIS（Sure Independence Screening）选择了与生存的边际关联最强的标志物，而LASSO进一步筛选了变量。由于预测生物标志物之间可能存在相关性，第一次进行SIS-LASSO筛选时，可能会遗漏重要的标志物，所以进行了迭代SIS（ISIS）-LASSO，反复将SIS-LASSO算法应用于其余未选择的标志物，直到无法纳入新的生物标记为止。考虑到LUAD和LUSC之间的生物学异质性，作者使用了组织学分层的多元Cox比例风险模型，在模型中也调整了其他协变量，如年龄，性别，研究中心，临床阶段和吸烟状况。经ISIS-LASSO筛选得到了与预后相关的23个CpG probe（补充表4）和13个gene probe（补充表7）。

补充表4.ISIS LASSO筛选出的23个CpG探针的组织分层Cox比例风险模型的结果

补充表7.ISIS LASSO筛选出的13个基因探针的组织分层Cox比例风险模型的结果

对于G×G相互作用的分析，也构建了协变量调整的组织学分层多元Cox比例风险模型，鉴定了具有G×G相互作用的生物标志物。表观遗传和转录生物标志物的G×G相互作用分析的显著性水平已通过Bonferroni方法分别校正为6.10×10–10 = 0.05 /（12,806×12,805 / 2）和1.94×10–7 = 0.05 /（719×718 / 2）。经ISIS-LASSO筛选分别在表观遗传分析和转录分析中得到了与预后相关的2495对和40对G×G相互作用。

接着作者在TCGA验证队列中用一致性检验验证了筛选得到的生物标志物，还进行了比例风险假定的测试(即假定Hazard Ratio不随时间变化)。然后作者进一步进行敏感性分析(Sensitivity analysis)来评估关键生物标志物的预测结果是否稳健。对于Main effect，筛选得到了1个CpG probe(cg19286631 TRIM27)与预后显著相关（HR发现队列= 1.03，P = 1.43×10–2；HR验证队列 = 1.03，P = 1.13×10–3）（补充表4中已标灰）；1个gene probe(NDRG1)与预后显著相关（HR发现队列 = 1.41，P = 2.16×10–2；HR验证队列 = 1.12 ，P = 4.33×10–2）（补充表7中已标灰）。对于G×G相互作用，筛选得到了149对（补充表9）和2对 G×G相互作用（补充表12）。

补充表9.表观遗传分析中149个显著GxG交互项的组织分层Cox比例风险模型的结果（部分结果）

补充表12.表观遗传分析中2个显著GxG交互项的组织分层Cox比例风险模型的结果

筛选到关键的生物标志物后，作者使用了向前逐步回归法，基于Pentry＜.05，Pelimination＞.05 来建立多生物标志物Cox比例风险模型，然后在TCGA样本中对其进行了验证。根据DNA甲基化和基因表达的各个值的加权线性组合，计算表观遗传分数和转录分数。对于表观遗传分析，在多生物标志物模型中筛选得到了1个具有Main effect的CpG探针和25对具有G×G相互作用的CpG探针（补充表9中已标灰），再加上作者之前研究的10个CpG探针一起构建了表观遗传分数。对于转录分析，在多生物标志物模型中筛选得到了1个具有Main effect的基因探针和1对具有G×G相互作用(RHOA*TLX1)的基因探针，并构建了转录分数。再由这两个分数得到综合得分，最后将预后评分定义为临床信息和综合评分的线性组合。

补充表15.评分与早期NSCLC生存率之间的关系

3.建立与评估多生物标志物Cox比例风险模型

为了评估这些评分的区分能力，作者分别根据表观遗传评分，转录评分，综合评分和预后评分的三分位数，将样本分为低，中和高得分组，绘制了经协变量调整的Kaplan-Meier生存曲线。与表观遗传的低分组相比，中得分和高得分组分别具有4.39(P = 1.22×10–6)和21.24倍(P = 5.67×10–21)的HR(图2.A)。转录得分，综合得分，预后评分高的患者生存率均显著降低(图2.B-D)。

作者进一步通过根据五分位数对患者进行分类，说明了预后得分的区分能力。高分组的患者3年和5年生存率较低，中位生存时间较短(图2.E-F)。在由协变量分层的分析中，进一步证实了预后评分的表现。(图3)

图2. 通过各种基于生物标志物的得分对患者的估计生存曲线

图3. 预后评分分层分析结果

然后作者在独立的TCGA队列中使用ROC曲线来预测模型的准确性，ROC曲线下面积（AUC）通过R包SurvivalROC计算得出。仅具有临床信息的模型的预测能力非常有限（AUC 3年 = 0.65，AUC 5年 = 0.66）。但是通过添加具有Main effect或G×G相互作用的生物标志物，增加了35.38％的3年生存率（P = 5.10×10 –17）和34.85％的5年生存率（P = 2.52×10 –18），并且对NSCLC生存期具有较高的预测能力（AUC 3年 = 0.88；AUC 5年 = 0.89）。（图4）此外，G×G相互作用对3年生存率的预测准确性贡献了额外的65.2％，对5年生存率增加了91.3％。最后作者使用R包rms生成了nomogram图（补充图5），校准图还显示了观察到的和预测的存活时间之间的良好一致性（补充图6）。

图4. 使用临床信息（C），DNA甲基化的主要和相互作用效应（M）和基因表达（E）的各种预测模型的ROC曲线

补充图5. 构建的Nomogram与临床和评分的生物标记的总体生存

补充图6. Nomogram模型校准曲线

在敏感性分析中，作者使用两个不同的阈值重新进行了逐步回归（P = .10和.15），发现大多数选定的生物标志物与原始回归模型中相同。然后，作者重新计算了表观遗传评分，转录评分，综合评分和预后评分，重新验证了它们与NSCLC生存率的关系，并获得了相似的结果。

此外，作者发现在LUAD患者和LUSC患者之间，这四个评分的影响没有显著差异（P 表观遗传评分 = .6572；P转录评分 = .1823；P 综合评分 = .5532；P 预后评分 =.9653）。预后模型在LUAD（AUC 3年 = 0.91，AUC 5年 = 0.89，C -index = 0.82）和LUSC（AUC 3年 = 0.85，AUC 5年 = 0.87，C -index= 0.82）中保持了相似的预测能力，表明所选生物标记物及其相互作用在预测LUAD患者和LUSC患者结局方面具有通用性。

4.蛋白质水平上鉴定基因的潜在功能

前面已经在表观遗传分析中筛选出25对G×G相互作用和1个main effect的生物标志物，在转录分析中筛选出1对G×G相互作用和1个main effect的生物标志物，因为有个别基因重复，所以一共涉及到52个基因。在临床蛋白质组学肿瘤分析协会（CPTAC）数据库中定位的47个基因中大多数（77％）基因在肿瘤和正常组织之间具有显著差异表达（limma包进行差异分析）。另外，具有main effect的1个基因和具有G×G相互作用的4对基因对LUAD存活有显著影响（补充表20）。

补充表20. CPTAC蛋白数据库中47个基因的main effect和基因间GxG互作的生存分析

5.表观遗传分析中基因网络分析与富集分析

在表观遗传分析中发现的49个基因中，作者通过GeneMANIA（Cytoscape插件）进行基因网络分析，5个基因（FOXP1，AFF3，BCL6，MAPK1，和STAT3）被确定为hub gene（图5.A），且据报道大多数hub gene与NSCLC相关。使用Metascape进行了GO和KEGG途径富集分析发现这49个基因富含癌症相关的途径（图5.B），值得注意的是，已鉴定的基因也富集在KEGG非小细胞肺癌途径（hsa05223）中，这表明作者鉴定的预后生物标记物的可靠性。

图5.25对相互作用的CpG探针和1个main effect的CpG探针绘制了49个基因的基因网络和基因富集分析

小结

本篇文章不局限于单一组学数据测试预后生物标志物上，结合了表观和转录数据，并考虑到基因与基因相互作用和基因的主要作用，经过ISIS-LASSO，多元COX回归，TCGA数据库的验证(一致性检验和敏感性分析)等多重筛选建立了基因组学的预后评分，提高了预后价值。这篇文章的筛选非常严谨，在基因基因交互作用的差异比较时，作者也注意到了多重比较的问题，使用了Bonferroni方法对P值进行校正。验证的过程中，作者不仅使用不同的基因数据库，还使用蛋白数据库进行验证，这种严谨的思想值得读者学习。当然这篇论文也存在一定的局限性，筛选出来的基因太多了（52个），给临床应用带来一定的困难。