这是文章的总体思路,下面我们按照具体步骤拆解一下文章套路。 免疫相关评分主要包括三个方面,即immune score 免疫细胞打分, stromal score 基质细胞打分, estimate score 综合打分。作者首先分析了癌症分级、分期与ESTIMATE评分之间的联系,显示两者间存在关联,且肿瘤的最快进展(G4、Ⅳ期)表现为最高的ESTIMATE评分(图1 A B)。接下来按评分分为高低两组分别进行预后分析,三种评分中均显示低评分组预后较好(图1 C D E)。 图 1 这一步是基于免疫评分和基质评分筛选差异表达基因,首先从TCGA数据库中下载原始数据,基于免疫评分筛选出162个高表达基因和747个低表达基因,基于基质评分筛选出261个高表达基因和1198个低表达基因。最后通过取交集确定77个高表达基因和787个低表达基因作为最终的差异表达基因(图2 C D)。随后,作者用共计864个差异表达基因进行了功能富集分析(图2 E),又对77个高表达基因进行聚类并绘制了热图(图 2 F)。 图2 作者基于上述过程中筛选出的77个上调差异表达基因构建了PPI网络,并对这些基因进行了功能富集分析(图3B),随后运用模块化分析筛选出四个重要模块,其中最显著的模块包含6个基因AGPAT9, AQP7, HMGCS2, KLF15, MLXIPL, PPARGC1A,这些基因被认为是枢纽基因(图3A)。 图 3 随后,基于TCGA数据库中基因表达量数据和临床信息数据,作者进行了枢纽基因的表达量、预后和COX回归分析。表达量和预后分析显示AGPAT9, AQP7, HMGCS2, KLF15, PPARGC1A在肿瘤中低表达且其低表达预示不良预后,MLXIPL在肿瘤中高表达且其高表达也预示不良预后(图 4)。经过单因素和多因素COX分析,最终肿瘤有远处转移(pM stage)、较高的分级(ISUP grade)、MLXIPL高表达是预后的危险因素,PPARGC1A高表达为保护因素(图 5)。 图 4 图 5 图 6 上述方程每一项前面数字就是多因素分析中的HR值,后面则是进入该方程的临床病理学参数(图 7)。 后面接着进行了ROC曲线分析以验证方程的效能,作者首先在自己的样本中进行验证,后续又用外部数据集TCGA中数据进行验证,两次验证AUC曲线下面积均大于0.7,证明文中构建的模型分类效能较好(图 8)。 图 8 其实仅仅这三步的分析也可以组合成一篇稍微低阶的SCI文章了,具体案例之前也有分享,详见《咬定热点不放松——生信+免疫分析思路》。从第四步开始筛选出枢纽基因进行预后分析、COX分析、构建模型、绘制ROC曲线、免疫浸润相关性分析才是这篇文章层次上升的重点,也是我们可以借鉴的地方。例如前期只做了基础的生信分析筛出来枢纽基因,后续可以从第四步继续分析以增加分析的深度。当然,如果暂时自己没有足够的样本进行分析,也可以直接从现有数据库下载数据,构建出模型后选取其他数据库中信息进行外部验证。 |
|