分享

数据挖掘 | 一文教会你如何找到甲基化芯片探针注释

 生物_医药_科研 2019-04-12

为什么需要探针注释?

1、甲基化谱中只有探针ID,无法得知探针位于哪个基因、什么位置等信息...

2、想要验证 cBioPortal探针选择,首先...至少要知道目标基因中包含哪些探针,才能提取探针甲基化值并与基因表达进行相关性分析,才能知道cBioPortal是否是选择了与基因表达负相关性最强的探针来代表基因...

GEO

如果你的450K芯片数据来自于GEO数据库。针对450K芯片,在GEO数据库中共有三种平台(Platforms):

三种Platforms的探针数有细微区别,但都在48K+(所以,此时你知道,450K代表的是该芯片中的探针数目,而实际有48万+个探针)。其中,又以GPL13534所测的样本数最多(截至本稿在GEO数据库中有86799个),意味着你使用的GEO中450K甲基化芯片数据,其探针注释信息大概率需要由GPL13534获取!

GPL13534注释文件下载链接:

https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL13534&form=text&view=full

当然,针对不同的GSE*数据集,还是需要自行确定一下,比如前列腺癌甲基化芯片数据集GSE76938:

https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE76938

可见,对应的探针注释平台为GPL13534:

https://www.ncbi.nlm./geo/query/acc.cgi?acc=GPL13534

部分注释内容如下:

共计485577个探针,UCSC_RefGene_Name列即为official gene symbol~

Xena

如果你的450K芯片数据来自于Xena数据库。Xena收录着TCGA数据库level3的450K甲基化芯片数据,即探针水平的beta值,同时提供探针注释信息下载:

注意,文件名中显示是基于GPL16304 ...

但如果再深入观察,你会发现一些蹊跷...Xena前文描述中说探针注释是基于GPL13534:

Microarray probes are mapped onto the human genome coordinates using xena probeMap derived from GEO GPL13534 record.

且实际的探针数也与GPL13534探针数一致..

GPL16304 与 GPL13534 相比,只少了65个探针(SNP位点探针):

https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL16304&form=text&view=full

而一般SNP位点探针会在质控时即过滤掉...

所以,思考两个问题

1、如果Xena的注释确实是来自GPL16304或GPL13534,那是否与GEO数据库中的GPL*文件内容一致?

2、除去SNP探针后,GPL16304与GPL13534文件内容是否一致?


两个问题的答案,测试一下便知,首先Xena中用的探针注释文件,下载:

https://tcga./download/probeMap/illuminaMethyl450_hg19_GPL16304_TCGAlegacy

该文件中只有6列,共计395985个探针,与450K芯片实际探针数差距较大,原因在于过滤掉了低质量探针:

remove all probes that are masked by the TCGA methylation group due to probe quality, there are no level 3 data for those probes in TCGA legacy data release

以CFTR基因为例,该注释文件共得到15个探针分布在CFTR基因上:

cg09181792、cg17204129、cg09341015、cg26310285、cg26635219、cg22533025、cg09626894、cg25509184、cg10524701、cg21461649、cg00735923、cg21212505、cg06081199、cg22467052、cg17616554

其中,cg10524701探针注释到两个基因上:CTTNBP2和CFTR

如果直接用GEO数据库中提供的 GPL16304 注释:

https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL16304&form=text&view=full

会得到19个:

cg00735923、cg05917537、cg06081199、cg09181792、cg09341015、cg09378456、cg09626894、cg10524701、cg11606570cg12124767、cg17204129、cg17616554、cg21212505、cg21461649、cg22467052、cg22533025、cg25509184、cg26310285、cg26635219

相比Xena所用的注释文件,多出4个探针...

而使用 GPL13534 注释会得到的16个,相比Xena,多出两个Xena中没有的(cg05917537、cg12124767),且少了一个存在于Xena中的(cg10524701),缺少的探针在GPL13534中注释到其他基因上:

现在,我们可以来回答上面的两个问题:

1、Xena的注释与GEO数据库中的GPL16304、GPL13534文件内容均不一致

2、去除SNP探针,GPL16304与GPL13534文件内容也不一致!

cBioPortal << Broad Firehose << GDC Legacy

如果你的450K芯片数据来自于cBioPortal数据库。我们知道cBioPortal中无法获得探针水平甲基化beta值,但是最终用于代表基因的是与基因表达负相关性最强的探针,所以cBioPortal一定有它的参考注释信息!

cBioPortal数据来源:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多