甲基化芯片背景甲基化芯片原理:https://www.jianshu.com/p/c4f758e0399d 芯片主要分为EPIC和450k两种,EIPC也就是850k,两种探针的都是以cg开头的数字编号,所谓注释也就是提取这些探针的所对应的信息,例如,探针序列的CpG位置信息,对应的基因信息,染色体上的位置信息,等等。很多包在安装的时候都会自动下载这些注释信息,并包装在一起,如果我们想要自己注释这些探针,就要考虑如何获取独立的注释信息。而所需要注释数据的,大部分都来自于两个数据库,GEO和TCGA。 下面介绍三种提取注释信息的方法 # 方法一:从UCSC Xena下载直接从UCSC Xena相应的癌症甲基化数据库里下载对应的文件。可以看到是来自GPL16304平台的芯片,其实和下面要介绍的从GEO下载注释信息是一样的,不过TCGA的探针数可能会少于45w,大约39w,因为提前过滤了一些低质量的探针。 # 方法二:从GEO下载对应平台的注释文件在GEO的官网platform下搜索Illumina HumanMethylation450,可以看到450k的芯片主要来自三个平台,探针数也是不一样的,TCGA中下载时一般都会标明来自那个平台,从GEO中下载数据都会得知平台的信息。直接进入对应平台的介绍就可以了。 表格中展示了部分信息,直接下载然后就可以提取我们需要的注释信息了,485577个探针一个不差,可能是因为我网速的问题,只有下载CSV这个的时候速度比较快,其他速度都非常感人 ids<-a[,c("IlmnID", # 方法三:从ChAMP包中提取这个方法严格来说其实是从ChAMP依赖的两个注释包中提取的,但是我又懒又笨,懒得看原始的包里数据藏在哪里了,ChAMP包在做甲基化分析的时候也很方便,而其中 myimport <- champ.import(directory=system.file("extdata",package="ChAMPdata")) 850k和450k本质上没有什么区别,所以方法都是通用的。 写在后面以上教程,来自于2019年9月份学徒,谢谢大家观看! 实际上,芯片探针如果有坐标,也可以参考:对bed格式的基因组区间文件进行基因注释 表达芯片的公共数据库挖掘系列推文感兴趣的也可以去看看; 10月巡讲
|
|