最近我在《生信技能树》安排了两个甲基化相关的学徒作业: 有学徒表示虽然看了我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》,详见:免费视频课程《甲基化芯片数据分析》,但是课程过于强调实操,很多背景知识大家比较缺乏,所以学徒自告奋勇补充了一些甲基化基础知识,供大家学习! DNA甲基化- 定义:DNA甲基化(DNA methylation)是研究得最清楚、 也是最重要的表观遗传修饰形式,主要是基因组 DNA上的胞嘧啶第5位碳原子和甲基间的共价结合,胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine,5mC)
- 哺乳动物基因组中5mC占胞嘧啶总量的2%-7%,约70%的5mC存在于CpG二连核苷
- 在结构基因的5’端调控区域, CpG二连核苷常常以成簇串联形式排列,这种富含CpG二连核苷的区域称为CpG岛(CpG islands),其大小为500-1000bp,约56%的编码基因含该结构
- 影响:基因调控元件(如启动子)所含CpG岛中的5mC会阻碍转录因子复合体与DNA的结合
DNA甲基化状态的遗传和保持:DNA复制后,新合成链在DNMT1的作用下,以旧链为模板进行甲基化。(缺乏严格的精确性,95%) 甲基化并非基因沉默的原因而是基因沉默的结果,其以某种机制识别沉默基因,后进行甲基化
DNA去甲基化:复制相关的去甲基化:
全新甲基化|甲基化状态保持|去甲基化:DNA甲基化的分布:Roles of DNA methylation:甲基化芯片甲基化芯⽚主要是450K和850K,都是采⽤了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化
进⾏测定; Infinium I采⽤了两种bead(甲基化M和⾮甲基化U)
这也导致了它们在后续荧光探测的不同,450K采⽤了两种荧光探测信号(红光和绿光)。 850k编码区域与增强子区域范围广泛覆盖的唯一组合 每份样本分析超过850,000个甲基化位点,可达单核苷酸分辨率 ● 实验分析方法可重现性高 技术平行重复性>98% ● 简单的工作流程 PCR-free(无需聚合酶链式反应)的操作,结合强大的Infinium HD Assay实验分析方法 ● 与福尔马林固定、石蜡包埋样本兼容 可提供适用于福尔马林固定、石蜡包埋样本的甲基化研究实验方案
Infinium MethylationEPIC BeadChip芯片基于业界领先的Infinium HumanMethylation450 BeadChip芯片的基础上开发,包含原有90%以上的CpG,外加新增的350,000个位于增强子区域的CpG。该实验分析方法能够在单个CpG位点的水平上提供定量甲基化测量,可适用于正常及福尔马林固定、石蜡包埋(FFPE)样本,为深入了解表观遗传变化提供了强大的检测分辨率。 表达谱芯片 | 甲基化芯片 |
---|
.cel | .idat | 基因表达矩阵 | 甲基化信号矩阵 |
下载甲基化芯片的两种方式library(GEOquery) getGEOSuppFiles("GSE68777") #或者自己上官网下载
untar("GSE68777/GSE68777_RAW.tar", exdir = "GSE68777/idat") # minfi ⽆法读取压缩的idat⽂件,所以需要解压 head(list.files("GSE68777/idat", pattern = "idat")) idatFiles <- list.files("GSE68777/idat", pattern = "idat.gz$", full = TRUE) rgSet <- read.metharray.exp("GSE68777/idat") rgSet save(rgSet,file = 'GSE68777_minfi_rgSet.Rdata')
require(GEOquery) require(Biobase) GSE80559 <- getGEO("GSE80559") beta.m <- exprs(GSE80559[[1]])
甲基化信号值矩阵3个层次的差异分析- DMP:DMP代表找出Differential Methylation Probe(差异化CpG位点)
- DMR:DMR代表找出Differential Methylation Region(差异化CpG区域)
- DMB:Block代表Differential Methylation Block(更⼤范围的差异化region区域)
专有名词 | 概念 |
---|
beta | One single beta matrix to do filtering. (default = myImport$beta). | M | One single M matrix to do filtering. (default = NULL). | pd | pd file related to this beta matrix, suggest provided, because maybe filtering would be on pd file. (default = myImport$pd) | intensity | intensity matrix. (default = NULL). | Meth | Methylated matrix. (default = NULL). | UnMeth | UnMethylated matrix. (default = NULL). | detP | Detected P value matrix for corresponding beta matrix, it MUST be 100% corresponding, which can be ignored if you don't have.(default = NULL) | beadcount | Beadcount information for Green and Red Channal, need for filterBeads.(default = NULL) |
Beta和M值的差别- M-values具有更好的统计特性,更适合用于进行下游的统计分析(差异分析等)
- Beta-values更加容易解释,更能说明生物学上的意义
β值的具体意义其它学徒作业目录如下:
|