cBioPortal想必大家并不陌生,可以完成特定基因的甲基化Beta值下载,以及基因表达与甲基化水平的相关性分析! https://www./ 单纯下载某个基因的甲基化数据 以肝癌中的CFTR基因为例: 下载得到文件 cBioPortal_data.txt,在excel中打开,显示如下: 知识点: 1、该文件存储450K芯片检测的CFTR基因在442个肝癌组织样本中的甲基化beta值,取值在0-1之间。 2、有部分样本并未进行甲基化芯片检测,则标识为NaN(即,排除空值,实际只有379个LIHC样本检测到了CFTR基因甲基化)! 3、cBioPortal中可直接得到基因甲基化值,而不像Xena中得到基因上所有探针的甲基化值(而无法得到基因水平甲基化值)! 那么 cBioPortal是如何得到基因水平甲基化的呢? 基因表达与甲基化相关性分析 与直接下载数据不同,进行分析需要通过Query模式: 输入目标基因后点击Submit Query,进行如下操作: 需要注意的是: 1、可视化结果不支持在线修整,但支持下载数据(故可以用R等工具重新绘制图形)。通过上图标识5,可以下载分析和可视化所用的数据(Data),得到plot.txt文件,在excel中打开显示如下: 可见,同时得到该基因的甲基化和mRNA表达值,这里只有373个样本的数据,因为要保证该样本同时具有甲基化和mRNA表达的检测。 2、下载的数据中,mRNA表达定量方法是RSEM值,包含较多0值,而在可视化时点选 Apply Log Scale会将数据log2转化,推测原值+0.01,即log2(RSEM + 0.01),故导致部分样本mRNA表达量在-6左右,显示一横排点的的情况。其实,更多的是类似Xena,做log2(RSEM+1)转换将表达量控制在0以上。 3、本例,相关性统计分析结果中显示的相关系数为正值,表示CFTR基因在肝癌中的甲基化和基因表达呈正相关关系!这似乎有悖于我们常规的认知...我们知道对于甲基化芯片来说,一个基因上是设计了不同位置的多个探针的,而cBioPortal只选择了一个探针来代表基因,即甲基化beta值与mRNA表达负相关性最强的探针:
https://www./faq https://groups.google.com/forum/#!topic/cbioportal/2OVGjC8xPT8 https://www./p/182962/ 综上 cBioPortal中下载/用于分析展示的所谓基因水平甲基化,其实只是某个探针的甲基化beta值~ 抛出问题 cBioPortal中无法获得探针水平甲基化beta值。那么,如何实现各探针甲基化水平与mRNA表达的相关性分析?即如何验证cBioPortal最终探针选择的准确性? |
|