分享

ChIP-seq数据分析课程学习笔记之背景知识

 健明 2021-07-14

咱们《生信技能树》的B站有一个ChIP-seq数据分析实战视频课程,缺乏配套笔记。恰好前些天的求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,走大运结识了几位优秀小伙伴!

其中中国医科大的“小高”同学给大家带来的就是ChIP-seq数据分析实战视频课程的配套笔记,希望可以帮助大家更好的吸收消化课程内容!

首先视频免费共享在B站:【生信技能树】Chip-seq测序数据分析ChIP-SEQ实战演练的素材:链接:https://share./53CwQ8B 密码:ju3rrh, 包括一些公司PPT,综述以及文献 ChIP-SEQ 实战演练的思维导图:文档链接:https:///doc/11taEb9ZYg 密码:wk29

接下来是根据生信技能树课程、思维导图、PPT和综述文献整理的笔记。

以下是关于ChIP-Seq背景知识的内容。

Transcriptional regulation is complex

1-表观遗传性背景知识

  • 2016年Nature Methods年度技术:表观转录组分析(Epitranscriptome analysis)

    • 自产数据:11个RNA-seq,2个ATAC-seq,以及2个hmc ChIP-seq,即hmC-seal,再结合ENCODE已经产生了胰腺癌的组蛋白修饰数据。
    • DNA/RNA/protein 都是可以被修饰的

    • NGS与转录

    • 示例文献:用肿瘤组织做ChIP-seq、ATAC-seq + RNA-seq + DNA羟甲基化

  • Jimmy大神对表观的18个疑问。

  • 2016 年 8 月清华大学颉伟研究员在复旦大学「表观基因组学暑期国际讲习班」中的报告

  • 其它生物学背景知识支持(需要追踪最新文献)

2-技术的背景介绍

1、各种测序建库技术

  • ChIP-Seq,蛋白质修饰

  • MeDIP-Seq,DNA修饰

  • WGBS,DNA修饰

  • ATAC-seq

  • MBD-Seq

  • RNA甲基化免疫共沉淀技术(MeRIP)

  • 氧化-重亚硫酸盐测序(oxBS-Seq)

  • TET辅助重亚硫酸盐测序(TAB-Seq)

  • m6A-Seq

  • RRBS(Reduced Representation Bisulfite Sequencing) 是WGBS的简化版

2、什么是ChIP-seq测序建库技术

  • ChIP即染色质免疫共沉淀技术(Chromatinimmunopre-cipitation, ChIP),它是在生理状态下, 利用甲醛将细胞内的DNA与蛋白质交联(Crosslink),从而形成复合物,然后经细胞裂解、细胞核收集和裂解, 分离染色体, 通过超声或酶处理将染色质随机切割, 再通过抗原抗体的特异性识别反应沉淀此复合体,从而特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得与该蛋白结合的DNA的信息。

  • ChIP-seq是将染色质免疫共沉淀二代高通量测序相结合的技术,它将ChIP获得的DNA片段进行高通量测序,捕捉到细胞内动态的、瞬时的蛋白质与DNA之间的相互结合作用,一次性获取与目的蛋白相结合的DNA序列、确定蛋白的结合分布和精确的结合位点以及结合基序等大量信息。

  • ChIP-seq的应用主要包括两个方面:

    • 一方面是DNA序列上转录因子结合位点(Binding sites)的识别, 如启动子、增强子等各种顺式作用元件(Cis-actingelement)的识别;

    • 另一方面主要应用在表观遗传学领域, 包括研究基因组DNA甲基化、组蛋白修饰和核小体定位等。

  • 若ChIP-seq同时结合转录组测序,则可以帮助得到目的蛋白对全细胞基因表达的调控模式,大幅提高对目的蛋白的功能认识。这种在 DNA-蛋白质相互作用研究方法上的重大突破,极大的推进了基因表达调控(转录因子)与表观遗传学(组蛋白修饰)的发展。

3、ChIP-seq实验环节

知识点很多,建议翻译:ChIP-seq-FAQs 内容,配套PPT图文并茂的讲解更容易看懂。

1)将活体细胞交联,将细胞核内的染色质分离出来,并用超声波打断成小片段(通常0.2-1kb),

2)用所研究的蛋白特异性抗体将目的蛋白及其结合的DNA片段免疫共沉淀下来,

3)将蛋白质-DNA复合物解交联并纯化DNA片段,

4)在DNA片段两端加测序接头构建DNA测序文库。

Chromatin_immunoprecipitation_sequencing

更多实验方案可见:N-ChIP、X-ChIP

4、ChIP-seq实验细节注意

参考文献:Keji Zhao, etal,ChIP-Seq: Technical Considerations for Obtaining High Quality Data.NatImmunol . ; 12(10): 918–922. doi:10.1038/ni.2117. https://www.ncbi.nlm./pubmed/21934668

1.怎么判断抗体满足ChIP要求?

  • 通常每个公司的抗体说明都标有级别(grade),ChIP级。如果没有,通常的规则是ChIP-PCR分析阳性control是阴性control的5倍以上的抗体认为是到达了ChIP级。

2.如果没有商业化的kit怎么办?

  • 表达的表位标记的蛋白也可以。最经常使用的标签包括HA,Flag,Myc和V5。除了表位的抗体,所述靶蛋白也可以标记有生物素受体序列,其可以与生物素经由生物素连接酶在体内或体外进行标记。

3.多少细胞数合适?

  • 10^6到10^7个细胞才能保证最终得到10到100ng ChIPed DNA。一般10^6可以满足高丰度蛋白(如RNA polymerase II)和局部组蛋白修饰(如H3K4me3)的ChIP。如果是低丰度的转录因子蛋白和其他组蛋白修饰则需要10^7个细胞。

4.用什么作为Control?

  • 关于control是问得最多,也是最困惑的一个问题。

  • 不推荐IgG,原因是:第一,大多数的IgG抗体不是来源于转录因子或特定组蛋白抗体同一动物的免疫前血清。第二,IgG通常pull down非常少的DNA,这样导致在后期的建库过程中PCR Cycles 数增加,导致不能达到作为control去除背景噪音的目的(会缺失和放大部分信息)。

  • 因此比较而言,Input更适合作为control。首先Input的建库量够,这样建库过程不需要over-amplifed,bias小。其次,最后测序得到的数据更均匀,以及全基因组覆盖度会更好。有人提到deletion 或者 RNAi knockdown目标转录因子的细胞同时做ChIP-Seq作为control更好。

5.是否需要生物重复?

  • 有人建议需要生物重复,但是从目前我经历的项目来看,生物重复性不太好。还有人推荐用不同公司的抗体来做生物重复,这就需要考虑到经费的问题。

6.关于超声处理

  • 超声没有什么特别的,需要注意的是超声处理在含有SDS的缓冲液中可能会破坏蛋白质-蛋白质和蛋白质-DNA相互作用。但是含有SDS的缓冲液能增加超声的效率,适应与DNA紧密结合的转录因子的ChIP-Seq。最近遇到一个老师,他的项目是一个转录因子跟不同的Parters蛋白结合,再binding到相关的区域,行使调控功能。这种情况就不建议用含有SDS的缓冲液了。

7.关于测序数据量

  • 大部分人认为20 Mb 是个比较适合选择,然后取决于物种。

3-阅读综述

  • 收集整理近10年的ChIP-seq数据分析及应用的综述
  • 阅读超过5个公司的ChIP-seq数据分析结题报告
  • 根据综述提取ChIP-seq数据分析的主干,绘制流程图,并且安装对应的软件
  • 根据文章提取ChIP-seq数据分析的侧枝,了解更多的扩展分析,并且安装对应的软件
  • 了解组蛋白修饰和转录组因子结合的ChIP-seq数据区别

拓展

【推荐必看】基础知识

  • NGS与转录
  • ChIP-Seq的填坑,从表观基础名词开始
  • 染色质和染色体的结构与功能

1、 ChIP-seq, MNase-seq, FAIRE-seq, DNase-seq,  and ATAC-seq

**Overview of ChIP-seq, DNase-seq, ATAC-seq and MNase-seq experiments**

ChIP-seq:揭示特定转录因子的结合位点,染色质免疫沉淀 (ChIP) 用于提取直接或通过含有目标因子的复合物中的其他蛋白质与目标蛋白结合的 DNA 片段,但一次测序只能提供一个转录因子的信息,检出率相对较低。ChIP-seq 需要良好的特异性抗体。

DNase-seqFAIRE-seqATAC-seq 揭示开放染色质的区域。在 DNase-seq 中,染色质被 DNase I 核酸内切酶轻微消化,该技术对细胞起始量的要求较高,一般细胞数量要达到10^6^-10^7^,样品准备相对困难ATAC-seq 是 DNase-seq 的替代方案,它使用工程化的Tn5转座酶来切割DNA并将引物DNA序列整合到切割的基因组DNA中。FAIRE-seq借助有机溶剂甲醛对DNA进行固定,之后通过酚氯仿抽提获取裸露的DNA。

MNase-seq 识别定位良好的核小体。微球菌核酸酶 (MNase) 是一种内切外切核酸酶,可逐步消化 DNA,直至到达核小体等障碍物。

MNase-ChIP-seq 使用与增强子(如 H3K4me 和 H3K4me2)或启动子(如 H3K4me3)相关的抗体,可以比全局 MNase-seq 更有效地识别基因组调控区域的核小体。

Meyer CA, Liu XS. Identifying and mitigating bias in next-generation sequencing methods for chromatin biology. Nat Rev Genet. 2014;15(11):709-721. doi:10.1038/nrg3788

2、推荐测序深度(ENCODE3)

对于窄峰组蛋白实验,每个重复应该有2000万个可用片段。

对于广峰组蛋白实验,每个重复应该有4500万个可用片段。

对于转录因子实验,每个重复应该有2000万个可用片段。

H3K9me3是一个例外,因为它富集在基因组的重复区域。在组织和原代细胞中,基因组非重复区域的H3K9me3峰很少。这导致了许多ChIP-seq读取图谱在基因组中的非唯一位置。组织和原代细胞每次复制应该有4500万的总映射读取量。

Broad MarksNarrow MarksExceptions
H3F3A
H3K27me3
H3K36me3
H3K4me1
H3K79me2
H3K79me3
H3K9me1
H3K9me2
H4K20me1
H2AFZ
H3ac
H3K27ac
H3K4me2
H3K4me3
H3K9ac
H3K9me3

测序(参考:生信星球#和豆豆一起探索ChIP-Seq

对DNA片段测序都是从5’测到3',接头也分正反(forward and reverse两种类型),它们也是随机连接到双链DNA片段上的;

单端测序:可以从forward或者reverse任一个接头一端开始

双端测序:从forward和reverse接头同时开始

产生的测序读长(read,测序就像读书一样一字一句,所以产出的数据是名词read,翻译为读长)一般比文库制备的DNA片段要短(从两边向中间测,不过也不排除有测通的情况)

3、染色质修饰的机制

Mechanisms involved in chromatin modifications

已知有五种广泛且相互关联的机制会影响染色质结构:DNA 甲基化、组蛋白翻译后修饰、染色质重塑、组蛋白变体和非编码 RNA调控。这五种都被证明对包括神经系统在内的组织的发育和细胞命运的决定起着至关重要的作用。

Dulac C. Brain function and chromatin plasticity. Nature. 2010;465(7299):728-735. doi:10.1038/nature09231

组蛋白修饰

Histone modifications demarcate functional elements in mammalian genomes

Zhou VW, Goren A, Bernstein BE. Charting histone modifications and the functional organization of mammalian genomes. Nat Rev Genet. 2011 Jan;12(1):7-18. doi: 10.1038/nrg2905. Epub 2010 Nov 30. PMID: 21116306.

在真核细胞中,组蛋白包裹基因组DNA形成核小体,核小体是真核细胞染色质结构的基本单位。

组蛋白受一系列翻译后修饰的影响,包括乙酰化、甲基化、泛素化、磺酰化、羟基化、磷酸化和ADP核糖基化。

最常见的组蛋白修饰为甲基化修饰和乙酰化修饰:乙酰化修饰与染色质的开放和转录激活相关;甲基化修饰根据其修饰类型以及发生的氨基酸不同,既可以导致转录激活(如H3K4me3、H3K36me3、H3K79me3等),也可以导致转录抑制(如H3K9me3、H3K27me3等)

  • Active promoters: H3K4me3, H3K9Ac
  • Active enhancers: H3K27Ac, H3K4me1
  • Repressors: H3K9me3, H3K27me3
  • Transcribed gene bodies: H3K36me3

H是指组蛋白位点,K是指赖氨酸位点,me是指甲基化修饰个数,ac是乙酰化修饰。H3K4me1,H3组蛋白、4号赖氨酸位点,1个甲基化修饰。

4、DNA和蛋白质相互作用(DPI)技术的发展

传统技术

  1. 凝胶迁移或电泳迁移率检测(Electrophoretic Mobility Shift Assay,EMSA)
  2. DNaseI足迹(DNase I Footpriting)
  3. 甲基化干扰实验(Methylation interference assay)
  4. 体内足迹试验(invivofoot-printing assay)
  5. 蛋白质体外结合实验/拉下实验(Pull-down assay)
  6. 荧光素酶报告基因( Luciferase Reporter GeneAssay)
  7. 染色质免疫共沉淀技术(chromatin-immunoprecipitation,ChIP)、ChIP-chip技术、ChIP-Seq技术

最新发展

  • CUT&RUN技术CUT&tag技术scCUT&Tag(Single-cell CUT&Tag)

2019年,美国Steven Henikoff教授发布基于Tn5-ProteinA融合蛋白的CUT&Tag技术,相较于传统的ChIP-Seq具有以下优点:省时高效,所需的细胞量少,背景信号低,可重复性好等优点,甚至可用于单细胞水平测序。

CUT&Tag实验思路:抗体识别目的蛋白(细胞内)→Tn5-ProteinA/G结合抗体→Tn5打断并且只打断目的蛋白附近的DNA→DNA测序,分析目的蛋白在基因组上分布(NGS及数据分析)。

CUT&Tag技术工作原理(Steven Henikoff,2019)

Skene PJ, Henikoff S. An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites. Elife. 2017 Jan 16;6:e21856. doi: 10.7554/eLife.21856. PMID: 28079019; PMCID: PMC5310842.

Skene PJ, Henikoff JG, Henikoff S. Targeted in situ genome-wide profiling with high efficiency for low cell numbers. Nat Protoc. 2018 May;13(5):1006-1019. doi: 10.1038/nprot.2018.015. Epub 2018 Apr 12. PMID: 29651053.

Kaya-Okur HS, Wu SJ, Codomo CA, Pledger ES, Bryson TD, Henikoff JG, Ahmad K, Henikoff S. CUT&Tag for efficient epigenomic profiling of small samples and single cells. Nat Commun. 2019 Apr 29;10(1):1930. doi: 10.1038/s41467-019-09982-5. PMID: 31036827; PMCID: PMC6488672.

Meers MP, Bryson TD, Henikoff JG, Henikoff S. Improved CUT&RUN chromatin profiling tools. Elife. 2019 Jun 24;8:e46314. doi: 10.7554/eLife.46314. PMID: 31232687; PMCID: PMC6598765.

  • ACT(antibody-guided chromatin tagmentation )-seq
    • 基于Tn5-ProteinA的单细胞测序方法。

Carter B, Ku WL, Kang JY, Hu G, Perrie J, Tang Q, Zhao K. Mapping histone modifications in low cell number and single cells using antibody-guided chromatin tagmentation (ACT-seq). Nat Commun. 2019 Aug 20;10(1):3747. doi: 10.1038/s41467-019-11559-1. Erratum in: Nat Commun. 2020 Sep 1;11(1):4424. PMID: 31431618; PMCID: PMC6702168.

  • CoBATCH(combinatorial barcoding and targeted chromatin release)
    • 用于细胞培养和组织中染色质结合蛋白基因组分布的单细胞分析。
CoBATCH

Wang Q, Xiong H, Ai S, Yu X, Liu Y, Zhang J, He A. CoBATCH for High-Throughput Single-Cell Epigenomic Profiling. Mol Cell. 2019 Oct 3;76(1):206-216.e7. doi: 10.1016/j.molcel.2019.07.015. Epub 2019 Aug 27. PMID: 31471188.

Stützer A, Welp LM, Raabe M, Sachsenberg T, Kappert C, Wulf A, Lau AM, David SS, Chernev A, Kramer K, Politis A, Kohlbacher O, Fischle W, Urlaub H. Analysis of protein-DNA interactions in chromatin by UV induced cross-linking and mass spectrometry. Nat Commun. 2020 Oct 16;11(1):5250. doi: 10.1038/s41467-020-19047-7. PMID: 33067435; PMCID: PMC7567871.

Kosuri P, Altheimer BD, Dai M, Yin P, Zhuang X. Rotation tracking of genome-processing enzymes using DNA origami rotors. Nature. 2019 Aug;572(7767):136-140. doi: 10.1038/s41586-019-1397-7. Epub 2019 Jul 17. PMID: 31316204; PMCID: PMC7036295.

5、ChIP-Seq实验流程和数据分析过程

中文

梁芳,徐柯,龚朝建,李俏,马健,熊炜,曾朝阳,李桂源.染色质免疫沉淀-测序:全基因组范围研究蛋白质-DNA相互作用的新技术[J].生物化学与生物物理进展,2013,40(03):216-227.

英文

Park PJ. ChIP-seq: advantages and challenges of a maturing technology. Nat Rev Genet. 2009 Oct;10(10):669-80. doi: 10.1038/nrg2641. Epub 2009 Sep 8. PMID: 19736561; PMCID: PMC3191340.

接下来就要进行数据分析的流程啦~


未完待续

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多