微信公众号:生信小知识 关注可了解更多的教程及生信小知识。问题或建议,请公众号留言;
目录 前言 0. 美图 Figure1 Figure2 Figure3 1. Main 2. Predictions using motifs and conservation 3. Predictions from regulator binding 4. Predictions using chromatin accessibility 5.Predictions from histone modifications 后记
前言 从去年8月份左右到现在,公众号的更新基本算是停止了,主要原因是因为要毕业了,而自己又没什么东西可以毕业,所以一直在利用自己学到的生物信息学技术来想办法毕业。终于,经过了小半年,文章差不多了,所以,生信小知识的分享又开始了 ~
最近想学习下ChIP-seq的分析,为了能够更好地理解分析出来的结果 ,所以有必要先补习下转录调控 相关知识啦~
这里就直接看一篇综述来补习下吧!
Title : Transcriptional enhancers: from properties to genome-wide predictions
Journal : Nature review genetics
Download_url : https://www./articles/nrg3682
这篇文章写的还是很棒的!内容也超级多,所以,内容注定会很长了~
我就按照综述的结构,分章节归纳总结。
当然了,我还是主要记录我自己不懂的地方,如果想要彻底学习理解,当然要自己去看原文了!
0. 美图 其实这篇文章中,最精彩地方之一就是他的配图了!超级好看,且清晰明了 。这里先放上图,如果看不懂请结合后面的内容理解这些图。如果看懂了,后面的内容则可看可不看啦~
Figure1 Figure 1 | Enhancers and their features .
Figure2 Figure 2 | Chromatin accessibility and histone marks at regulatory elements .
Figure3 Figure 3 | Genomic methods for predicting enhancers through the detection of transcription factor binding, 'open’ chromatin, chromatin marks, or long-range contacts.
1. Main 核心启动子:保证RNA聚合酶Ⅱ转录正常起始所必需的、最少的 DNA序列,包括转录起始位点 及转录起始位点上游TATA区(这句话来自百度百科)。能够招募RNA聚合酶Ⅱ转录机器。但是只有核心启动子的存在,转录活性非常弱,而增强子/顺式作用元件则可以调控转录活性。
最早的增强子是30多年前在SV40病毒 (猿猴病毒40)基因组上发现的,他们发现在病毒gDNA序列中的一段72bp长的序列可以提高HeLa细胞 中一个reporter基因的表达升高几百倍。
增强子序列包含一小段DNA motif序列 ,这段序列可以让转录因子(TF)结合 上来。而后TF招募其他co-factors (包括co-activators和co-repressors),TF和co-factors共同决定了增强子调节转录的活性 。
增强子的活性还被证明和染色质状态 相关(常/异染色质),并且与染色质的组蛋白修饰密 切相关。
关于组蛋白修饰 的总结:
转录状态 Markers Markers Active promoter H3K4me3 H3K27Ac Active enhancer H3K4me1 H3K9Ac Repressor H3K9me3 H3K27me3 Transcribed gene body H3K36me3
增强子有几个非常神奇的特性被很多研究者证实: (1) 增强子发挥作用时独立于靶基因的距离和方向 。也就是增强子可以距离靶基因非常远,且增强子可以位于靶基因的下游,而不局限于上游。 (2) 增强子可以位于基因组任何位置,即使在异染色质区域也不影响其发挥作用 。 (3) 增强子以模块的形式发挥作用。同一个基因可能同时会受到多个增强子的影响。
2. Predictions using motifs and conservation 在转录过程中,一些转录因子等可以与DNA结合的蛋白通过在gDNA上进行“扫描”,从而识别出Enhancer的位置 。
这些可以与DNA结合的蛋白质,他们与DNA结合的区域一般来说只有6-10bp 的长度。并且在这6-10bp的范围内,在某些位置上的碱基可以有多种不同的类型 (这个叫做'degenerate’ positions ,翻译为“简并位置 ”)。
上面说到的蛋白质(例如TF)与DNA结合的序列 ,通过一定的方法被归纳总结为了一个序列,这个序列就称为TF的motif序列 。如果motif上序列发生突变,则于此处结合的Enhancer活性也会消失。
根据目前的认识:每个TF有他们自己偏爱的motif序列 。这使得我们在整个gDNA上预测寻找Enhancer更容易。目前在记录motif序列上,一般使用PWM(https://www.jianshu.com/p/04b58d609070这里讲的还不错,至少我都看懂了)。这里简单记录下关于motif的记录方式:
Matrix-based
(矩阵方法):用矩阵将每个位置的A,G,C,T的量都表示出来。根据Matrix-based
记录方法,我们可以换算得到count-matrix
,PFM
(position frequency matrix)和PWM
(position weight scoring)
Count matirx
是每个位置计数得来的
PFM
是每个位置的百分比得来的
PWM
是通过取对数得来的
目前一些常用的motif数据库:
TRANSFAC :10.1093/nar/gkj143(doi)
JASPAR :10.1093/nar/gkp950(doi)
UniPROBE :10.1093/nar/gkn660(doi)
但是通过motif在寻找Enhancer并不是非常完美的方法,以6bp的motif来说,在整个基因组上,每46 bp = 4096 bp就会出现一次。而只有很小一部分是真正有功能作用的Enhancer。
motif的功能是招募TF,而招募到的TF反过来招募co-factors。
3. Predictions from regulator binding ChIP-seq 实验通过化学交联 与它们的体内结合位点共价连接 ,然后打断成为小片段,通过抗体识别TF,从而拖拽获取TF连接的DNA片段。
ChIP-exo 实验则在ChIP-seq的基础上,将TF结合的两侧翼多余序列用外切酶去除 ,只保留与TF直接结合的部分去测序 。
对于经典的TF来说,通过ChIP-seq一般会发现TF结合在Promoters,Introns或者Intergenic区域 。而且对于ChIP-seq的结果来说,因为ChIP-seq拉下来的都是直接与TF结合的位点,所以一般来说结果假阴性的机会很低 。但是,并不是所有TF直接结合的地方都是有功能的,有时候TF可以结合在DNA上,但是却不影响基因的表达 。
为了有很多地方有TF结合,但是却没有什么功能 (可能的假设):
TF结合后可以激活Enhancer,但是只有一个TF结合可能不足以激活转录 。
TF对于DNA有广泛的亲和力,即使不是TF匹配的motif,也可以短暂、低亲和力地 结合在DNA上。(在ChIP-seq的甲醛交联 过程中可以捕获这种短暂的非功能性相互作用 ,特别是在延长了交联时间 的情况下,即使对于非DNA结合蛋白 也是如此)
转录因子可能通过与其他转录因子的相互作用而间接调节转录 。
我们可以通过检测TF的co-factors来识别增强子的位置 ,例如组蛋白乙酰化酶P300 。
co-factors一般不与DNA直接连接,但是一般都是被TF招募过来,执行不同的酶活性。
4. Predictions using chromatin accessibility 激活的增强子 一般缺失核小体的包绕 ,他们处于“开放”状态 。
MNase-seq原理:金黄色葡萄球菌的微球菌核酸酶(MNase)既有内切酶活性,又有外切酶活性。通过切割消化暴露在外的基因组片段来工作,被核小体及TF包绕保护DNA被保留并测序 。
DNase-seq原理:DNase是一个内切酶,可以将DNA片段剪断,但是不能进行消化。
先锋转录因子(pioneer factors):可以结合到有核小体包绕的DNA(异染色质)上 ,将核小体“挤走”,使整个DNA片段开放,使其他TF也可以结合上来 。例如FOXA1 就是一个先锋转录因子。
Insulator(CTCF)也会主要富集在开放区域 。
5.Predictions from histone modifications 不同顺式作用元件周围的组蛋白修饰相对稳定。
不同组蛋白修饰的意义:
转录状态 Markers Markers Active promoter H3K4me3 H3K27Ac Active enhancer H3K4me1 H3K9Ac Repressor H3K9me3 H3K27me3 Transcribed gene body H3K36me3
代表转录激活和转录抑制的组蛋白修饰可以同时存在:
latent enhancers:一些目前处于没有任何组蛋白修饰状态 (关闭状态),但是TF结合上去后立马获得组蛋白修饰 (H3K4me1和H3K27ac ),然后变成激活状态 。
ChromHMM 方法可以结合多种组蛋白修饰 ,将基因组分成不同的染色质状态 。
目前对于增强子的染色质状态定义不清楚,主要原因有2个:
后记 后面其实还有一部分内容,但是我觉得和我想要了解的知识相关性不高,所以等日后有需要再来复习吧~