为什么需要探针注释? 1、甲基化谱中只有探针ID,无法得知探针位于哪个基因、什么位置等信息... 2、想要验证 cBioPortal探针选择,首先...至少要知道目标基因中包含哪些探针,才能提取探针甲基化值并与基因表达进行相关性分析,才能知道cBioPortal是否是选择了与基因表达负相关性最强的探针来代表基因... GEO如果你的450K芯片数据来自于GEO数据库。针对450K芯片,在GEO数据库中共有三种平台(Platforms): 三种Platforms的探针数有细微区别,但都在48K+(所以,此时你知道,450K代表的是该芯片中的探针数目,而实际有48万+个探针)。其中,又以GPL13534所测的样本数最多(截至本稿在GEO数据库中有86799个),意味着你使用的GEO中450K甲基化芯片数据,其探针注释信息大概率需要由GPL13534获取! GPL13534注释文件下载链接: https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL13534&form=text&view=full 当然,针对不同的GSE*数据集,还是需要自行确定一下,比如前列腺癌甲基化芯片数据集GSE76938: https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE76938 可见,对应的探针注释平台为GPL13534: https://www.ncbi.nlm./geo/query/acc.cgi?acc=GPL13534 部分注释内容如下: 共计485577个探针,UCSC_RefGene_Name列即为official gene symbol~ Xena 如果你的450K芯片数据来自于Xena数据库。Xena收录着TCGA数据库level3的450K甲基化芯片数据,即探针水平的beta值,同时提供探针注释信息下载: 注意,文件名中显示是基于GPL16304 ... 但如果再深入观察,你会发现一些蹊跷...Xena前文描述中说探针注释是基于GPL13534:
且实际的探针数也与GPL13534探针数一致.. GPL16304 与 GPL13534 相比,只少了65个探针(SNP位点探针): https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL16304&form=text&view=full 而一般SNP位点探针会在质控时即过滤掉... 所以,思考两个问题 1、如果Xena的注释确实是来自GPL16304或GPL13534,那是否与GEO数据库中的GPL*文件内容一致? 2、除去SNP探针后,GPL16304与GPL13534文件内容是否一致? 两个问题的答案,测试一下便知,首先Xena中用的探针注释文件,下载: https://tcga./download/probeMap/illuminaMethyl450_hg19_GPL16304_TCGAlegacy 该文件中只有6列,共计395985个探针,与450K芯片实际探针数差距较大,原因在于过滤掉了低质量探针:
以CFTR基因为例,该注释文件共得到15个探针分布在CFTR基因上:
其中,cg10524701探针注释到两个基因上:CTTNBP2和CFTR 如果直接用GEO数据库中提供的 GPL16304 注释: https://www.ncbi.nlm./geo/query/acc.cgi?targ=self&acc=GPL16304&form=text&view=full 会得到19个:
相比Xena所用的注释文件,多出4个探针... 而使用 GPL13534 注释会得到的16个,相比Xena,多出两个Xena中没有的(cg05917537、cg12124767),且少了一个存在于Xena中的(cg10524701),缺少的探针在GPL13534中注释到其他基因上: 现在,我们可以来回答上面的两个问题: 1、Xena的注释与GEO数据库中的GPL16304、GPL13534文件内容均不一致 2、去除SNP探针,GPL16304与GPL13534文件内容也不一致! cBioPortal << Broad Firehose << GDC Legacy如果你的450K芯片数据来自于cBioPortal数据库。我们知道cBioPortal中无法获得探针水平甲基化beta值,但是最终用于代表基因的是与基因表达负相关性最强的探针,所以cBioPortal一定有它的参考注释信息! cBioPortal数据来源: |
|