【原】易基因：ENCODE和modENCODE联盟的ChIP-seq实验设计指南和注意事项｜干货

深圳易基因科技 2024-04-15 发布于广东

展开全文

大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。

ChIP-seq（染色质免疫沉淀测序）实验指南和实践（ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia），由ENCODE（Encyclopedia of DNA Elements）和modENCODE（Model Organism ENCODE）联盟研究人员撰写。文章发表在《Genome Research》期刊上，从ChIP概述、ChIP-seq实验设计注意事项、数据评估及数据报告指南四个方面对ChIP-seq进行了相关介绍，旨在提供一个标准化框架，以确保ChIP-seq实验的质量和数据的可靠性。小编分享其中的ChIP-seq概述、ChIP-seq实验设计指南和实验设计注意事项。

ChIP概述：

全基因组ChIP实验的目标是定位整个基因组中具有最大信噪比和完整性目标蛋白的结合位点。ChIP-seq的基本流程如图1A所示。用化学试剂处理细胞或组织，使蛋白质与DNA共价交联。然后是通过细胞破碎和超声处理，或是酶解（某些情况），将染色质剪至100-300bp大小。再通过靶向该因子的特异性抗体纯化目标蛋白（转录因子、组蛋白修饰、RNA聚合酶等）及其结合DNA，相对于起始染色质进行富集。另外，也可以生成表达表位标记因子的细胞系，并通过表位标签免疫沉淀融合蛋白。

免疫富集后，交联被逆转，富集的DNA被纯化并制备用于分析。在ChIP-chip中，DNA与差异标记的参考DNA一起被荧光标记并与DNA微阵列杂交。在ChIP-seq中，通过高通量DNA测序分析，在所有设计中，实验样品中的ChIP信号将与从适当的对照染色质或对照免疫沉淀制备的类似处理的参考样品进行比较来确定假定富集的基因组区域。

不同的蛋白质类别与基因组具有不同的互作模式，需要不同的分析方法：

点源因子（Point-source factors）和某些染色质修饰定位于特定位置，产生高定位的ChIP-seq信号。这一类包括大多数序列特异性转录因子、它们的辅助因子、以及在一些情况下与转录起始位点或增强子相关的组蛋白标记。这些构成了ENCODE和modENCODE项目的大部分内容。
广源因子（Broad-source factors）与大的基因组区域相关。例如，某些染色标记（H3K9me3、H3K36me3等）以及与转录延伸或抑制相关的染色质蛋白（例如ZNF217）。
混合源因子（Mixed-source factors）可以在基因组某些位点以点源方式结合，但在其他位置形成更广泛结合域，如RNA聚合酶II以及一些染色质修饰蛋白（SUZ12）以这种方式表现。

图1：ChIP-seq工作流程和抗体表征程序概述

特定ENCODE指南的步骤用红色表示。其他步骤存在标准ENCODE协议，应针对每种新的细胞系/组织类型或超声进行验证和优化。（*）常用但可选的步骤。
表征新抗体或抗体批次的流程图。
使用抗体表征检测的流程图。

ChIP 实验设计指南

（1）测序和文库复杂性

对于每个哺乳动物基因组的ChIP-seq点源库，ENCODE的目标是在每次重复中获得≥10M唯一比对reads，以及目标NRF（非冗余分数）≥0.8。modENCODE点源因子的相应目标是每次重复获得≥2M唯一比对reads，≥0.8 NRF。果蝇中的广源ChIP-seq，modENCODE目标reads是≥5M，哺乳动物广源组蛋白标记的ENCODE临时目标在NRF≥0.8时的唯一比对reads≥20M。

（2）对照文库

ENCODE为每种细胞类型、组织或胚胎集合生成并测序一个对照ChIP库，并将文库测序至合适深度（至少等于且优选大于测序最深的实验文库）。如果成本限制允许，应该从每个染色质制备和超声处理批次中制备对照文库。重要的是，如果培养条件、处理、染色质剪切方案或仪器有明显差异，则需要进行新的对照实验。

（3）可重复性

实验至少设置两个生物学重复以确保可重复性。为了使ENCODE数据通过提交标准，使用IDR方法通过分析确定一致性，如果未达到标准，则需要进行第三次重复。通过IDR确定用于后续分析的高度可重复peak的截止值（通常使用1%的阈值）。

本ChIP实验设计指南确保了ChIP-seq实验能够产生高质量、可重复的数据，这对于后续的分析和生物学发现至关重要。通过遵循这些标准，研究人员可以提高实验的准确性和可靠性，从而为科学界提供有价值的数据资源。

ChIP-seq实验设计注意事项：

（1）抗体和免疫共沉淀特异性：

ChIP实验的质量取决于抗体的特异性和亲和沉淀步骤中实现的富集程度。人类细胞和果蝇胚胎中的大多数ENCODE/modENCODE ChIP实验用抗个体因子和组蛋白修饰抗体进行。

抗体缺陷主要有两种类型：（1）对预期靶点的反应性差，和/或（2）与其他DNA相关蛋白的交叉反应性。为此制定了一套工作标准和报告指南，旨在提供试剂识别目标抗原的置信度，并且与其他染色体蛋白的交叉反应最小。用于测量抗体特异性和敏感性的广泛可用的方法范围从半定量到定性，每种方法都可能存在噪声和解释问题。因此强调报告抗体表征数据，以便对ChIP数据或试剂本身做出明智的判断。当然也可能使用不严格遵守这些指南的试剂进行成功实验。例如，在免疫印迹分析中检测到的交叉反应蛋白可能不会干扰ChIP，因为该蛋白不附着于染色质。不同类型的二次测试可以帮助提供关于初始评估失败的抗体可接受性的信心。

两个测试（初次测试和二次测试）用于表征每个单克隆抗体或不同批次的相同多克隆抗体。初次和二次测试的顺序受执行每个测试所需工作量的影响，初次试验更容易对大量抗体进行。转录因子抗体与组蛋白修饰抗体的测试有所不同。典型的工作流程见图2B和图2C。通过和未通过这些测试的抗体示例如图2A所示。

联盟还包括五个标准之一作为二次测试表征：（1）通过突变或RNAi“敲低”因子，（2）使用靶向蛋白质上多个表位或靶向同一复合物不同成员抗体的独立ChIP实验，（3）使用带有表位标记的构建体进行免疫沉淀，（4）亲和富集，然后进行质谱分析，或（5）结合位点基序（motif）分析。motif富集是最容易进行的检测，但需要有关蛋白质结合序列的预先存在的信息，并假设motif在给定的细胞来源中被感兴趣的因子唯一识别。具有第二抗体或靶向表位标记的构建体的ChIP和与ChIP结合的siRNA实验提供了独立的证据，表明靶位点受目标因子结合。质谱法对于在免疫印迹上观察到多个或意外条带并且怀疑存在剪接同种型，翻译后修饰或降解的情况特别有用。此外，它可以精确识别潜在的ChIP信号替代源，通常具有新颖的生物学意义，可以通过额外的ChIP实验进行测试。由于进行这些检测需要大量精力和费用，联盟标准仅要求进行一次二次测试。约20%（227个中的44个）的测试市售抗转录因子抗体符合这些表征指南，并且在ChIP-seq分析中也起作用。

迄今为止，55%的联盟抗体已提交质谱数据，28%使用第二抗体、表位标签或已知复合物的替代成员的ChIP数据，10%使用来自motif分析的数据，7%使用siRNA敲低数据。

验证组蛋白修饰抗体涉及多个问题：（1）对其他细胞核/染色质蛋白的特异性，（2）对未修饰的组蛋白和非靶修饰的组蛋白残基（例如H3K9me与H3K27me）的特异性，（3）对同一残基（例如H3K9me1，H3K9me2和H3K9me3）的单甲基化，二甲基化和三甲基化的特异性，以及（4）批次间变异。对于所有联盟组蛋白检测，设定了应用免疫印迹分析和以下二级标准之一的标准：肽结合试验(dot blots)、质谱分析、含有相关组蛋白修饰酶或突变体组蛋白敲低细胞系中的免疫反应性分析或基因组注释富集。

图2 来自抗体鉴定分析的代表性结果

（2）使用表位标记结构物的免疫共沉淀：

鉴于在获得适合ChIP抗体方面存在挑战，一个有吸引力的替代方法是用外源性表位标记该因子，并用对该标记特异性表征良好的单克隆试剂进行免疫沉淀。表位标记通过使用可用于许多不同因子的高度特异性试剂来解决抗体变异和与多基因家族不同成员的交叉反应问题。然而，这引入了对表达水平以及标记是否会改变因子活性的担忧。

（3）重复、测序深度、文库复杂性和位点发现：

来自独立细胞培养物、胚胎库或组织样本的生物重复实验用于评估可重复性。初始 RNA 聚合酶 II ChIP-seq 实验表明，两个以上的重复没有显著改善位点发现。因此ENCODE联盟设置了标准，即所有ChIP检测都将在两个独立的生物重复上进行。不可重复发现率（IDR）分析方法现在被用于评估重复一致性和设置阈值。

对于典型的点源DNA结合因子，ChIP-seq鉴定出的阳性位点数量通常会随着测序reads数量而增加。因为ChIP信号强度的连续统一体，而不是一组界限分明且离散的阳性位点。由于更多reads提供了更高的统计能力，因此可以在更大的数据集中更有信心地检测到较弱的位点。图3显示了对11个人类ENCODE ChIP-seq数据集的peak calling分析，这些数据集获得了深度序列数据（3000~1亿比对读长）。对于结合位点很少的因子，观察到reads数明显饱和，但对于所有其他因子，reads数继续以不同的速率增加，包括使用100M比对reads calling>150000 peaks的情况。对peaks信号分析表明，该信号在较大的测序深度下始终保持平稳。目前将20M比对reads作为点源转录因子的所有ENCODE ChIP实验的最低值，通常中位数富集5~13倍；在20M reads鉴定出的新peaks富集程度约为最强peaks富集程度的20%（图3C）。且通过测序到更深深度可以发现许多新peaks，其富集值为3~7倍。这些区域中的许多可能对应于低亲和力位点和/或开放染色质区域，这些区域与TF的特异性结合较少。

图3：测序深度决定peaks数。

（A） 11个ENCODE ChIP-seq数据集，使用Peak-seq（0.01%FDR截止值）calling的peaks数。

（B） peaks calling和唯一比对reads数之间的关系，为11个ChIP-seq数据集calling peaks数。插图为HepG2细胞的MAFK数据集的peaks数据，该数据集是目前测序最深的ENCODE ChIP-seq数据集（由于相对于其他数据集的reads明显较大，因此单独显示）。数据集由细胞系和转录因子（例如细胞系HepG2，转录因子MAFK）表示。

（C）随着测序深度的增加，新calling peaks值的富集倍数变化。每增加2.5M唯一比对reads，计算新calling peaks与IgG对照数据集（在相同测序深度下测序）相比的中位数富集倍数，并将其绘制成图表。

ChIP信号强度与生物调节活性的关系是当前积极研究的领域。已知增强子的生物活性在文献中被定义，并且与ChIP-seq信号强度相比，其分布相当广泛。一些高活性转录增强子可重复地显示适度的ChIP信号（图4B）。这意味着不能先验地为ChIP peaks数或ChIP信号强度设置特定的目标阈值，以确保包含所有功能位点。因此，一个实际的目标是通过在合理的经费限制内，通过优化免疫沉淀和深度测序来最大限度地发现位点。对于哺乳动物细胞中的点源因子，ENCODE对每个生物学重复至少产生10M唯一比对reads（每个因子至少提供20M唯一比对reads）；蠕虫和苍蝇的每个重复至少产生2M唯一比对reads。对于广泛的富集区域，目前正在研究适当数量的唯一比对reads，但目前哺乳动物细胞的大多数实验，每个重复至少产生20M唯一比对reads，蠕虫和苍蝇每个重复至少产生5M唯一比对reads。

图4：评估ChIP-seq实验质量的标准。

（A）文库的复杂性。表示比对到正（红色）或负链（蓝色）的单个read。

（B）功能性调控元件与ChIP-seq信号强度的分布。在分化的小鼠肌细胞中，针对肌细胞生成素（肌肉分化的主要调节剂）进行ChIP-seq。虽然许多广泛表征的肌肉调节元件表现出强烈的肌生成素结合，但大量已知的功能位点处于结合强度连续体的低端。

（C） calling的peaks数量与ChIP富集的关系。除了特殊情况外，成功的实验可以为大多数TF鉴定出数千到数万个peaks，数百或低数千的数字表示失败。使用具有默认阈值的MACS calling peaks。

（D）生成交叉相关图。通过将reads按照比对到的链方向移动增减碱基对，并计算了每条链的每个位置reads数向量之间的Pearson相关性。reads覆盖以wigglegram图表示。

（E）在ChIP实验中通常观察到两个交叉相关peaks，一个对应于读长（“phantom”peaks），另一个对应于文库的平均片段长度。

（F）对于1052个人ChIP-seq实验，calling区域内的reads数与相对交叉相关系数之间的相关性。

（G）两个peaks的绝对高度和相对高度是ChIP-seq实验成功的有用决定因素。高质量IP的特征是ChIP peaks远高于“phantom”peaks，而在失败的实验中通常很小或没有这样的峰。这个指标有助于判断实验中抗体对目标蛋白的富集效果。

位点发现和可重复性也受到ChIP-seq测序文库复杂性的影响（图4A）。将文库复杂性定义为非冗余DNA片段的比例。随着文库测序深度的增加，最终达到了一个点，复杂性将耗尽，相同的PCR扩增DNA片段将被重复测序。当在IP期间分离出非常少量的DNA或由于文库构建问题时，文库复杂性可能会降低。

一个有用的复杂性度量是数据集中非冗余比对 reads比例（非冗余比例或NRF），将其定义为基因组中唯一可比对reads比对到的位点与唯一可比对reads总数之间的比率，类似于冗余度量。NRF随着测序深度的增加而降低，对于点源TF，目标在10M唯一比对reads的NRF≥0.8。随着测序技术改进和每条泳道的reads达到100M将成为可能，即使来自点源因子库的复杂文库也可能在比必要的深度更大的深度进行测序。为了最大化每次DNA测序运行可以获得的信息并防止过度测序，可以使用条形码和合并策略。

（4）对照样品（Control sample）：

适当的对照数据集对于d任何ChIP-seq实验的分析都至关重要，因为超声处理过程中的DNA断裂不均匀。例如开放染色质的某些区域优先在超声处理的样品中表示，还有一些平台特定的测序效率偏差会导致不均匀性。有两种产生对照DNA样本的基本方法减轻了这些问题对结合位点鉴定的影响：（1）从与免疫沉淀DNA相同条件下交联和片段化的细胞中分离DNA (“Input” DNA)；（2）使用与不相关的非核抗原（“IgG”对照）反应的对照抗体进行“模拟”ChIP反应。对于这两种类型的对照，编码组序列的深度至少等于且优选大于ChIP样本的深度。虽然IgG对照比“Input”对照更接近于模拟ChIP实验，但重要的是，IgG对照免疫沉淀可恢复足够的DNA，以建立一个与实验样品具有足够高复杂性的文库；否则，使用该对照进行的结合位点识别可能会有很大偏差。

无论使用何种类型的对照，ENCODE和modENCODE组都会对每个细胞系，发育阶段和不同的培养条件/处理进行单独的对照实验，因为影响染色质制备的倍性、基因型和表观遗传特征存在已知和未知的差异。为了作为有效的对照，使用相同的协议来构建ChIP和对照测序文库（即与PCR扩增次数、片段大小等相同）。已经观察到具有特别强的超声波偏差的对照文库，它们可能会对peaks calling产生不利影响。ENCODE/modENCODE组还尽可能为每批超声处理的样品生成单独的对照，以控制可能的超声处理变化。

（5）Peak calling：

将reads比对到基因组后，使用peaks calling软件来鉴定ChIP富集区域。SPP、PeakSeq和MACs这些算法的结果output通常按绝对信号（reads数）或通过计算的富集显著性（P值和错误发现率）对区域进行排序。因为ChIP信号强度是一个连续体，弱位点多于强位点（图4B），最终peaks列表的组成在很大程度上取决于特定的参数设置和使用的算法以及实验本身的质量。阈值太宽松会导致每次重复假阳性比例很高，但后续分析可以从最终联合peaks确定中去除假阳性。不同的peak calling算法依赖于不同的统计模型来计算P-values和错误发现率（FDR），这意味着来自不同软件包的显著性不能直接比较。当使用标准的peak calling阈值时，成功的实验通常会为哺乳动物基因组中的大多数TF识别数千到数万个peaks。在所有情况下，在peak calling中使用适当的对照实验都很重要。

将离散的富集区域称为广源因子或混合源因子更具挑战性，并且处于发展的早期阶段。识别这些区域的方法正在出现（如ZINBA、MACS2、MACS的更新版本），专门用于处理混合信号类型。

后续本公众号将分享ChIP-seq测序数据评估和ChIP-seq 数据报告指南，敬请持续关注！

关于易基因染色质免疫共沉淀测序 (ChIP-seq)

染色质免疫共沉淀（Chromatin Immunoprecipitation,ChIP），是研究体内蛋白质与DNA相互作用的经典方法。将ChIP与高通量测序技术相结合的ChIP-Seq技术，可在全基因组范围对特定蛋白的DNA结合位点进行高效而准确的筛选与鉴定，为研究的深入开展打下基础。

DNA与蛋白质的相互作用与基因的转录、染色质的空间构型和构象密切相关。运用组蛋白特定修饰的特异性抗体或DNA结合蛋白或转录因子特异性抗体富集与其结合的DNA片段，并进行纯化和文库构建，然后进行高通量测序，通过将获得的数据与参考基因组精确比对，研究人员可获得全基因组范围内某种修饰类型的特定组蛋白或转录因子与基因组DNA序列之间的关系，也可对多个样品进行差异比较。

应用方向：

ChIP 用来在空间上和时间上不同蛋白沿基因或基因组定位

转录因子和辅因子结合作用
复制因子和 DNA 修复蛋白
组蛋白修饰和变异组蛋白

技术优势：

物种范围广：细胞、动物组织、植物组织、细菌微生物多物种富集经验；
微量建库：只需5ng以上免疫沉淀后的DNA，即可展开测序分析；
方案灵活：根据不同的项目需求，选择不同的组蛋白修饰特异性抗体。

技术路线：

易基因提供全面的表观基因组学（DNA甲基化、DNA羟甲基化）和表观转录组学（m6A、m5C、m1A、m7G）、染色质结构与功能组学技术方案（ChIP-seq、ATAC-seq），详询易基因：0755-28317900.

参考文献：

Landt SG, Marinov GK, Kundaje A, Kheradpour P, Pauli F, Batzoglou S, Bernstein BE, Bickel P, Brown JB, Cayting P, Chen Y, DeSalvo G, Epstein C, Fisher-Aylor KI, Euskirchen G, Gerstein M, Gertz J, Hartemink AJ, Hoffman MM, Iyer VR, Jung YL, Karmakar S, Kellis M, Kharchenko PV, Li Q, Liu T, Liu XS, Ma L, Milosavljevic A, Myers RM, Park PJ, Pazin MJ, Perry MD, Raha D, Reddy TE, Rozowsky J, Shoresh N, Sidow A, Slattery M, Stamatoyannopoulos JA, Tolstorukov MY, White KP, Xi S, Farnham PJ, Lieb JD, Wold BJ, Snyder M. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. Genome Res. 2012 Sep;22(9):1813-31.