分享

数据挖掘 | 在线TCGA基因表达与甲基化相关性分析-cBioPortal

 生物_医药_科研 2019-04-11

cBioPortal想必大家并不陌生,可以完成特定基因的甲基化Beta值下载,以及基因表达与甲基化水平的相关性分析!

https://www./

单纯下载某个基因的甲基化数据

以肝癌中的CFTR基因为例:

下载得到文件 cBioPortal_data.txt,在excel中打开,显示如下:

知识点:

1、该文件存储450K芯片检测的CFTR基因在442个肝癌组织样本中的甲基化beta值,取值在0-1之间。

2、有部分样本并未进行甲基化芯片检测,则标识为NaN(即,排除空值,实际只有379个LIHC样本检测到了CFTR基因甲基化)!

3、cBioPortal中可直接得到基因甲基化值,而不像Xena中得到基因上所有探针的甲基化值(而无法得到基因水平甲基化值)!

那么

cBioPortal是如何得到基因水平甲基化的呢?

基因表达与甲基化相关性分析

与直接下载数据不同,进行分析需要通过Query模式:

输入目标基因后点击Submit Query,进行如下操作:

需要注意的是:

1、可视化结果不支持在线修整,但支持下载数据(故可以用R等工具重新绘制图形)。通过上图标识5,可以下载分析和可视化所用的数据(Data),得到plot.txt文件,在excel中打开显示如下:

可见,同时得到该基因的甲基化和mRNA表达值,这里只有373个样本的数据,因为要保证该样本同时具有甲基化和mRNA表达的检测。

2、下载的数据中,mRNA表达定量方法是RSEM值,包含较多0值,而在可视化时点选 Apply Log Scale会将数据log2转化,推测原值+0.01,即log2(RSEM + 0.01),故导致部分样本mRNA表达量在-6左右,显示一横排点的的情况。其实,更多的是类似Xena,做log2(RSEM+1)转换将表达量控制在0以上。

3、本例,相关性统计分析结果中显示的相关系数为正值,表示CFTR基因在肝癌中的甲基化和基因表达呈正相关关系!这似乎有悖于我们常规的认知...我们知道对于甲基化芯片来说,一个基因上是设计了不同位置的多个探针的,而cBioPortal只选择了一个探针来代表基因,即甲基化beta值与mRNA表达负相关性最强的探针:

For genes with multiple probes (usually from the Infinium arrays), we only include methylation data from the probe with the strongest negative correlationbetween the methylation signal and the gene's expression in the study (TCGA only).

https://www./faq

https://groups.google.com/forum/#!topic/cbioportal/2OVGjC8xPT8

https://www./p/182962/

综上

cBioPortal中下载/用于分析展示的所谓基因水平甲基化,其实只是某个探针的甲基化beta值~

       抛出问题

cBioPortal中无法获得探针水平甲基化beta值。那么,如何实现各探针甲基化水平与mRNA表达的相关性分析?即如何验证cBioPortal最终探针选择的准确性?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多