文献解读丨甲基化生信分析新思路发5分文章

风雨都停了 2021-01-19

展开全文

专注生物分析最前沿

定期解读生信文章

提供生信分析思路和套路

方便大家短平快发SCI

关于甲基化方面的探索，传统的方法无非是现在公共数据库中下载数据，差异分析构建模型，外部数据验证或者与靶基因相关性分析，构建网络等等，但内容还是过于单薄，现如今只能发低分的文章。

如何利用已经掌握的技能，在甲基化方向中创新呢，下面这篇文章也许能给你点启发。

2020年末的【IF=5.201】的甲基化生信文章，结构非常清晰，只涉及少量的实验，非常适合大家模仿与学习。文章题目：Integrative Analysis of DNA Methylation and Gene Expression to Determine Specific Diagnostic Biomarkers and Prognostic Biomarkers of Breast Cancer

文章背景

在乳腺癌（BRCA）在内的各种肿瘤早期发展中，DNA甲基化已被研究为潜在的肿瘤生物标志物。尽管以前的研究已经报道了BRCA中大量的异常启动子甲基化变化，但是这些研究都没有证明这些DNA甲基化变化的特异性。

在这里，文章先通过差异分析鉴定出甲基化诊断模型与验证模型，进一步在不同数据集，其他癌症类型，已发表的BRCA模型进行验证比较，确定模型的准确性及特异性。

研究内容

1.差异甲基化位点鉴定

甲基化样本：TCGA（790BRCA，98NOR）

分成：训练数据集：n=592；验证数据集：n=296

在训练数据集中，设置阈值| β|> 0.2, FDR < 0.05，使用Wilcox检验方法鉴定出差异甲基化位点（DMS）：2362个高甲基化和2322个低甲基化（图1A）。接着分析DMS在不同基因组区域的分布，这与实体瘤DNA甲基化的一般特征一致（图1B-C）。

为了寻找BRCA的特定诊断生物标志物，文章对来自人类健康血液的甲基化数据集GSE69270求取差异甲基化位点，并与上述TCGA结果求取交集得到263个共同的DMSs（图1D）。

其次，对TCGA中其余九种癌症进行差异甲基化分析，结合上述结果得出有17个DMSs存在于BRCA等10种癌症与正常组织中。

最后，使用WrapperSubsetEval评估程序，该评估程序使用了交叉验证来评估每个子集的准确性后得出7个具有代表性的DMSs（表1）。

随后，检测DMSs间是否具有相关性，结果得出7个DMSs间均具有相关性（P<0.05），cg10708955和cg04658021间具有最强的相关性（r=0.803）（图1E）.同时，BRCA与正常组织间，不同癌症组织间7个DMSs的甲基化水平均有差异（图1F-G）。

2.诊断模型的验证

通过TCGA训练数据集，文章基于7个DMSs建立BaysNet模型（https://waikato./weka-wiki/downloading_weka/上的3.8版）。其中，GSE66695, GSE60185, GSE78754作为外部验证数据集。在TCGA数据中，使用ROC方法验证模型的准确性（训练集：AUC=0.994；验证集：AUC=0.974）（图2A-B）。

随后，将研究结果与之前已发表的甲基化标志物模型进行比较灵敏度与特异度（图2C）。最后，检查不同甲基化模型区分BRCA和其他癌症的能力，当使用文章的模型时，其他癌症的肿瘤和正常组织很少被预测为BRCA（0-19.8％，中位数13.4％）。但是，使用Wu等人的模型时，其他癌症和正常组织中有89.5-100％（中位值为98.1％）被预测为是BRCA。Croes等人的模型中，其他癌症和正常组织中有43.4–91.7％（中位数66.5％）被预测为是BRCA（图2D）。结果表明，作为BRCA诊断生物标志物，此模型具有较高的特异度。

3.诊断模型的功能特性

为了进一步研究这7个新发现的DMS与BRCA进展之间的相关性，文章在TCGA中探究其对应基因的表达情况。结果显示，TRRERF1，PER1，TUFT1，CCND1和ENPP2基因的表达在乳腺癌和邻近组织中有显着差异（p <0.0001）（图3A）。

考虑到潜在的临床意义和生物学意义，文章使用免疫组织化学（IHC）来评估CCND1和PER1在14对配对的BRCA和邻近组织中的表达。结果证实CCND1在乳腺癌组织中高表达而PER1在乳腺癌组织中低表达，这与上述数据分析结果一致（图3B）。（有疑惑这里为什么只评估了其中两个基因）

随后，使用STRING数据库构建了由7个DMS对应的6个DNA驱动基因的PPI表达网络。结果得知，只有四个基因：TRERF1，CCND1，PER1和ENPP2形成网络，TUFT1和SRGAP1没有与其他基因形成网络（图3C）。最后进行了KEGG，GO通路分析（图3D-E）。

4.预后模型鉴定

通过在训练队列（表2）中进行单变量Cox比例风险回归分析，得出 611个DNA甲基化位点与OS显着相关（P<1×10^-3）（图4A）。随后进行多因素Cox比例风险回归分析，得出有统计学意义的6个甲基化位点（cg04747226，cg04544154，cg16814416，cg03951219，cg17080504，cg19458602）（图4B）。并构建风险评分模型：

RiskScore = 1.78920 × cg04747226–1.97075 × cg04544154–2.92310 × cg16814416 + 1.69264 × cg03951219 + 1.84526 × cg17080504–2.33118 × cg19458602.

根据生存时间是否大于5年，将肿瘤患者分成长期组和短期组，检测不同生存时间分组中6个甲基化位点的表达水平。结果表明，生存期长的患者倾向于具有低表达水平的cg04747226，cg03951219和cg17080504，高水平表达的cg04544154，cg16814416和cg19458602（图4C）。并且，6个甲基化位点与其对应基因表达具有相关性（P<0.05）（图4D）。

5.预后模型的验证

分组：以中位数为节点，根据6个甲基化表达情况分成高低风险组。

随后，在验证TCGA数据集中，对患者的生存率进行KM生存分析及ROC分析。结果表明高风险和低风险组间生存率差异具有统计学意义，并且AUC值均超过60%（图5A）。

当将6个甲基化位点整合成模型后，在训练和验证队列中，模型对患者OS的预测能力良好。，AUC分别为0.784和0.734（图5B-C）。这些结果表明这六个甲基化标记物具有很高的敏感性和特异性，并且在临床应用中具有很大的潜力作为预后生物标记物。

6.在临床与病例中，预后模型的验证

因BRCA的临床分期，类型和临床用药会影响预后，文章根据不同的临床特征对患者进行了分组。

分组1：早期（I-II期），晚期（III-IV期）

分组2：luminal A, luminal B, HER2+ , basal-like四个亚型

分组3：化疗组，非化疗组

分别对不同分组进行KM生存分析与ROC分析，评估模型的准确性及特异性。

为了确定我们的生物标记物是否比已知的生物标记物具有更好的预测患者存活的能力，将与已发表的生物标志物在验证数据集中共同进行ROC分析，结果进一步证实了模型具有较高的准确性与稳定性（图6）。

7.验证模型的GSEA分析

为了探索作用机制，对6个CpG位点进行了基因集富集分析（GSEA）KEGG分析，结果发现基因表达主要集中在DNA复制和细胞周期的生物学行为中（图7A）。随后，计算了这6个CpG位点与这两个途径中的基因之间的相关性，发现这6个CpG位点与这两个途径中的许多基因具有显着的相关性。这表明这6个CpG位点模型的潜在生物学机制可能与DNA复制和细胞周期有关（图7B）。

总结

这篇文章作为研究甲基化还是挺全面的，虽然涉及到少量的实验，但这部分条件不允许的话可以舍去设计成纯生信。

但这文章的优点也非常明显，数据量很大，涉及到TCGA与GEO，还有已发表的BRCA模型与不同癌症间的TCGA数据，这就需要在文章开始前有一个好的设计思路与方案，避免途中因数据过大而导致混乱了。

还有一点，关于模型的构建，除了传统的COX分析，还可以添加机器学方面的内容，如LASSO回归，随机森林，SVM算法等等，让自己的文章更加具有说服力！