【原】泛癌中甲基化功能影响数据库

医学数据库百科 2021-01-08

展开全文

写在前面

目前我们用到的很多甲基化的数据库都是基于甲基化芯片来进行检索的。所有的甲基化芯片和表达谱芯片一样都是基于设计序列来进行检测的，类似的我们检测的原始数据是cg开头的ID编号，这个编号代表检测其中的一段序列，同时这段序列也存在于某一个基因上面。基于这个，我们就可以评价一个基因不同位置上的甲基化水平的变化了。

目前很多基于TCGA构建的甲基化数据库都是来分析甲基化在不同类型的组织是否存在差异以及是否影响表达。但是甲基化对于基因相互作用的影响很少有提到。这次就给大家介绍一个基于TCGA构建的预测甲基化功能以及其相互作用的数据库吧。

DNMIVD数据库介绍

DNMIVD（http://119.3.41.228/dnmivd/index/）是一个基于 TCGA 和 GEO 的甲基化芯片数据库构建的甲基化泛癌分析的数据库。这个数据库除了可以查看某一个基因在泛癌当中的甲基化的结果，同时也可以了解某几个甲基化位点对于诊断和预后模型的影响，也可以查看这个甲基化位点的相关的功能。

数据库基本检索

对于这个数据库而言，如果是想要检索一个基因在泛癌当中的甲基化信息的话，我们可以通过直接的输入基因就可以来检索获得的信息，例如，我们检索ADCY4基因。

在输入基因之后，就可以获得关于这个基因有关的所有甲基化位点的信息以及基本的分析结果。默认的看到的是所有肿瘤的结果，这个是以表格的形式呈现的，如果我们选择某一个肿瘤的话，可以有相关的图呈现，所以我们这里就以乳腺癌(BRCA)这个肿瘤来呈现结果。

我们主要可以看到以下几种分析的结果：

基因相关的基本信息、表达差异结果以及这个基因有关的cg探针的信息。

这个基因在目标癌种启动子区的甲基化差异结果

甲基化和表达的相关性。这里数据库把常规相关分析的两个算法都用了。一般单纯的FPKM是偏态的，所以有可能Spearman可能更准确一些。

这个基因的甲基化和预后的关系。这里作者做预后分组的时候使用了两种办法，一种就是按照中位值来进行分组的；另外一种是按照前甲基化数据< 0.3和 >0.7来进行分组的。

这个基因甲基化对于基因相互作用的影响。这里作者使用了一个叫做FEM（Functional Epigenetic Modules）的算法。这个算法基于相同样本的甲基化芯片数据、RNA-seq数据以及基因相互作用的数据来评估在具体样本当中基因的甲基化对于蛋白相互作用的影响。其中前面两个组学数据使用的是TCGA的同一样本的配对数据，后面的相互作用结果使用了了两组数据：蛋白相互作用网络（protein-protein interaction, PPI）以及基因共生和互斥网络（）Co-Occurrence and Mutual Exclusive, COME）来做了，其中COME的结果来自于DISCOVER的一个算法，所以结果就存在两种：FEM（PPI）以及FEM（COME）。