分享

易基因|ENCODE组蛋白ChIP-seq和转录因子ChIP-seq数据标准及处理流程

 深圳易基因科技 2022-07-15 发布于广东

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。

ENCODE (Encyclopedia of DNA Elements) 作为DNA调控元件百科全书整合了1w+个来自不同组织或细胞系的各类实验数据标准。以表观组学研究中的ChIP-seq为例,ENCODE Consortium使用不同的表观基因组分析,并制定对应的分析方案和指南,具有绝对的权威和参考意义。

本期,易基因小编为大家说明ENCODE数据库的组蛋白ChIP-seq和转录因子ChIP-seq指标要求,包括测序分析概述、处理流程(Pipeline)指南和不同分析类型的数据标准。

组蛋白 ChIP-seq 数据标准和处理流程

(1)分析概述

ChIP-seq是一种用于分析蛋白质与DNA互作的方法。ChIP-seq将染色质免疫沉淀与DNA高通量测序相结合,以推断DNA相关蛋白的可能结合位点。ENCODE Consortium开发了两个分析pipeline来研究两种不同类别的蛋白质-染色质互作(组蛋白ChIP-seq和转录因子ChIP-seq)。组蛋白ChIP-seq的pipeline适用于与较长区域或结构域上的DNA相关蛋白质。典型的靶点是组蛋白或特定的翻译后组蛋白修饰。

(2)处理流程

组蛋白ChIP-seq和转录因子ChIP-seq的流程具有相同的比对步骤,但在信号和peak calling方法以及随后的重复样本统计处理方面有所不同。

组蛋白分析流程可以解析点状结合和更长的染色质结构域,这些结构域由许多靶蛋白或靶修饰实例结合。组蛋白ChIP-seq 流程的output适合作为将染色质区域分类为功能类别的染色质分割模型的input。

图1:具有生物学重复实验的组蛋白ChIP-seq分析流程

图2:没有生物学重复实验的组蛋白ChIP-seq分析流程

表1:组蛋白ChIP-seq分析流程的inputs

表2:组蛋白ChIP-seq分析流程的outputs

(3)流程指南

  • 读长应至少为50个碱基对,鼓励更长的读长;分析流程可以处理低至25个碱基对的读长。可以配对或单端测序。

  • 应注明使用的测序平台。不同的测序平台可能没有可比性。如HiSeq2000与HiSeq4000的重复不同,没有可比性。

  • 生物学重复应在读长和运行类型方面相匹配。

  • Pipeline文件比对到人(GRCh38)和鼠(mm10)序列。

(4)现行标准

  • 实验应该有两个或多个生物学重复。由于实验材料的可用性有限,使用EN-TEx样品进行分析可以例外。

  • 抗体必须根据ENCODE Consortium制定的标准进行鉴定。

  • 每个ChIP-seq实验应该有相应的input控制实验,具有匹配的运行类型,读长和重复结构。

  • 使用非冗余分数(NRF)和PCR瓶颈系数1和2,PBC1和PBC2衡量文库复杂性。优选值如下:NRF>0.9,PBC1>0.9,PBC2>10。

特定目标标准

  • narrow-peak组蛋白实验,每个重复应该有不低于20M可用片段。

  • broad-peak组蛋白实验,每个重复应该有不低于45M可用片段。

  • H3K9me3是一个例外,因为它在基因组重复区域富集。与其他broad Marks相比,在组织和原代细胞中基因组的非重复区域中几乎没有H3K9me3 peaks。导致许多ChIP-seq reads比对到基因组中的非唯一位置。组织和原代细胞每个重复应该有不低于45M总比对 reads。

图3:特定目标标准

转录因子ChIP-seq 数据标准和处理流程

(1)分析概述

转录因子ChIP-seq (TF ChIP-seq) 处理流程适用于预测以点状方式结合的蛋白质,例如特定 DNA 序列或特定染色质结构。其中,IP标靶通常是已知或推定的转录因子或染色质重塑蛋白,也可以是 RNA 结合蛋白、其他 DNA 或染色质特异性因子。

(2)处理流程

组蛋白ChIP-seq和转录因子ChIP-seq的流程具有相同的比对步骤,但在信号和peak calling方法以及随后的重复统计处理方面有所不同。转录因子ChIP-seq(TF ChIP-seq)专门研究被认为与特定DNA序列相关联以影响转录速率的蛋白质。

图4:具有生物学重复实验的转录因子ChIP-seq分析流程

图5:没有生物学重复实验的转录因子ChIP-seq分析流程

表3:转录因子ChIP-seq分析流程的inputs

表4:转录因子ChIP-seq分析流程的outputs

(3)流程指南

  • 读长应至少为50个碱基对,鼓励更长的读长;分析流程可以处理低至25个碱基对的读长。可以配对或单端测序。

  • 应注明使用的测序平台。不同的测序平台可能没有可比性。如HiSeq2000与HiSeq4000的重复不同,没有可比性。

  • 重复应在读长和运行类型方面相匹配。

  • Pipeline文件比对到人(GRCh38)和鼠(mm10)序列。

(4)现行标准

  • 实验应该有两个或多个生物学重复。由于实验材料的可用性有限,使用EN-TEx样品进行分析可以例外。

  • 抗体必须根据ENCODE Consortium制定的标准进行鉴定。

  • 每个ChIP-seq实验应该有相应的input控制实验,具有匹配的运行类型,读长和重复结构。

  • 使用非冗余分数(NRF)和PCR瓶颈系数1和2,PBC1和PBC2衡量文库复杂性。优选值如下:NRF>0.9,PBC1>0.9,PBC2>10。

特定目标标准

  • 每个重复应该有不低于20M可用片段。

    • 低reads深度:10M到20M可用片段

    • reads深度不足:5M到10M可用片段

    • 极低的reads深度:< 5M可用片段

  • 对于转录因子ChIP-seq实验,通过计算IDR值(Irreproducibility Discovery Rate)来检测生物学重复之间的重复性。如果rescue和self consistency ratio均小于2,则实验成功。

其他指标

在没有定义阈值的情况下计算额外的指标,例如FRiP(fraction of reads in peaks),在比较类似实验时很有用。

以上为ENCODE数据库中组蛋白ChIP-seq和转录因子ChIP-seq数据标准及处理流程是简要说明。

参考来源:https://www.encodeproject.org/data-standards/

手把手教你做染色质免疫共沉淀测序(ChIP-seq)分析实验

项目文章 | ChIP-seq揭示HIV-1感染细胞转录抑制因子Schlafen 5的表观遗传调控机制

项目文章|ChIP-seq揭示H3K27me3去甲基化酶在体细胞重编程调控转录机制

一文看懂:ChIP实验和qPCR定量分析怎么做

http://www.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多