ChIP-Seq技术在转录因子结合位点分析的应用

小梦想在努力 2018-12-18

展开全文

摘要:染色质免疫沉淀(Chromatin immunoprecipitaion, ChIP)技术是用来研究细胞内特定基因组区域特定位点与结合蛋白相互作用的技术。将ChIP与第二代高通量测序技术相结合的染色质免疫沉淀测序(chromatin immunoprecipitation followed by sequencing, ChIP-Seq)技术能在短时间内获得大量研究数据,高效地在全基因组范围内检测与组蛋白、转录因子等相互作用的DNA区段,在细胞的基因表达调控网络研究中发挥重要作用。本文简要介绍了ChIP-Seq技术的基本原理、实验设计和后续数据分析,以及ChIP-Seq技术在研究转录因子结合位点中的。

关键词:ChIP-Seq;转录因子;

引言

染色质是真核生物基因组DNA主要存在形式,为了阐明真核生物基因表达调控机制,对于蛋白质与DNA在染色质环境下的相互作用的研究是基本途径。转录因子是参与基因表达调控的一类重要的细胞核蛋白质,基因的转录调控是生物基因表达调控层次中最关键的一层,转录因子通过特异性结合调控区域的DNA序列来调控基因转录过程。转录因子由基础转录因子和调控性转录因子两类组成,其中基础转录因子在转录起始位点附近的启动子区,与RNA聚合酶相互作用实现基因的转录;而调控性转录因子一般与位置多样的增强子序列结合,再通过形成增强体在组织发育、细胞分化等基因表达水平调控中发挥极其重要的作用[1]。

ChIP-Seq是近年来新兴的将ChIP与新一代测序技术相结合,在全基因s组范围内分析转录因子结合位点(transcription factor binding sites,TFBS)、组蛋白修饰(histone modification)、核小体定位(nucleosome positioning)和DNA 甲基化(DNA methylation)的高通量方法[2-4]。其中ChIP是全基因组范围内识别DNA与蛋白质体内相互作用的标准方法[5],最初用于组蛋白修饰研究[6],后来用于转录因子[7]。同时,新一代测序技术的迅猛发展也将基因组学水平的研究带入了一个新的阶段,使得许多基于全基因组的研究成为可能。相对于传统的基于芯片的ChIP-chip (chromatin immunoprecipitation combined with DNA tiling arrays),ChIP-seq 提供了一种高分辨率、低噪音、高覆盖率的研究蛋白质-DNA 相互作用的手段[8],可以应用到任何基因组序列已知的物种,可以研究任何一种DNA 相关蛋白与其靶定DNA 之间的相互作用,并能确切得到每一个片段的序列信息.随着测序成本的降低,ChIP-seq 逐步成为研究基因调控和表观遗传机制的一种常用手段。此外,为了达到更好的检测效果和更为完整的信息,近年来,将ChIP-Seq和ChIP-chip两者融合的研究具有很好的应用前景[9,10]。

转录因子在器官发生过程中起至关重要的作用,在全基因组水平将转录因子定位于靶基因DNA是认识转录调控网络的有效方法之一,了解基因转录调控的关键是识别蛋白质与DNA的相互作用。ChIP-Seq技术

能够揭示转录因子的结合位点和确定直接的靶基因序列,可在体内分析特定启动子的分子调控机制,因此被广泛应用于转录调控机制的研究。本文主要就这一技术在转录因子结合位点研究中的基本原理、实验设计和数据分析等技术层面、以及实际应用层面进行讨论。

转录因子在器官发生过程中起至关重要的作用,在全基因组水平将转录因子定位于靶基因DNA是认识转录调控网络的有效方法之一,了解基因转录调控的关键是识别蛋白质与DNA的相互作用。ChIP-Seq技术能够揭示转录因子的结合位点和确定直接的靶基因序列,可在体内分析特定启动子的分子调控机制,因此被广泛应用于转录调控机制的研究。本文主要就这一技术在转录因子结合位点研究中的基本原理、实验设计和数据分析等技术层面、以及实际应用层面进行讨论。

1 ChIP-seq基本原理及实验设计

1.1 ChIP技术

蛋白质与DNA相互识别是基因转录调控的关键,也是启动基因转录的前提。ChIP是在全基因组范围内检测DNA与蛋白质体内相互作用的标准方法[11],该技术由Orlando等[12]于1997年创立,最初用于组蛋白修饰的研究,后来广泛应用到转录因子作用位点的研究中[13]。ChIP的基本原理为:活细胞采用甲醛交联后裂解,染色体分离成为一定大小的片段,然后用特异性抗体免疫沉淀目标蛋白与DNA交联的复合物,对特定靶蛋白与DNA片段进行富集[8]。采用低pH 值反交联,DNA与蛋白质之间的Schiff键(-C=N-)水解,释放DNA片段。通过对目标片段的纯化与检测,获得DNA与蛋白质相互作用的序列信息。

N-ChIP[14]和X-ChIP[15]是最常见的2种ChIP实验技术,前者用来研究DNA与高结合力蛋白的相互作用,采用核酸酶消化染色质,适用于组蛋白及其异构体的研究;X-ChIP主要用来研究DNA与低结合力蛋白的相互作用,采用甲醛或紫外线进行DNA和蛋白交联,然后,采用超声波将染色质断裂为小片段,适用于多数非组蛋白的蛋白质类的研究。由于生物芯片具有快速、高效、高并行性、高通量、微型化和自动化等特点,高密度生物芯片与ChIP 的结合极大地方便了DNA与蛋白质相互作用的研究。

1.2 ChIP-Seq技术

ChIP-Seq是将ChIP与新一代测序技术相结合,能够高通量地得到每一个片段精确的序列信息,其实验原理是:在生理状态下,把细胞内的DNA与蛋白质交联后裂解细胞,分离染色体,通过超声或酶处理将染色质随机切割,利用抗原抗体的特异性识别反应,将与目的蛋白质相结合的DNA片段和目的蛋白质沉淀下来,再通过反交联(Reverse Crosslink)释放结合蛋白的DNA片段。此步骤获得全基因组范围内与组蛋白或转录因子等DNA结合蛋白相互作用的DNA区段信息,这些DNA区段信息的长度大约为200 bp. 用新一代的测序技术测序获得36~100 bp的DNA片段的序列,最后这些DNA片段将会被比对到对应的参考基因组上(图1)[16]。

ChIP-Seq技术在转录因子结合位点分析的应用

图1 ChIP-Seq实验原理图

同ChIP-Seq技术与ChIP-chip比较起来,它最大的优点在于能够精确定量分析。该技术具有许多的优点:(1)能实现真正的全基因组分析;(2)结合分辨率可精确到10~ 30bp;(3)所需样本量小;(4)避免了杂交等影响因素,具有更高的敏感性等。

现在,分析ChIP-Seq的测序平台主要有45

4、Solexa、IIIumina、SOLiD和HeliScope,其中IIIumina测序是最常使用的测序方法。ChIP-Seq技术读取的序列越来越多,而成本也在不断下降。通常第二代高通量测序方法产生的是段序列,段序列在序列拼接和序列映射时会产生很多麻烦,但是在ChIP-Seq实验中,段序列具有很大价值,因为序列的结合位点通常都比较短。

现在,分析ChIP-Seq的测序平台主要有454、Solexa、IIIumina、SOLiD和HeliScope,其中IIIumina测序是最常使用的测序方法。ChIP-Seq技术读取的序列越来越多,而成本也在不断下降。通常第二代高通量测序方法产生的是段序列,段序列在序列拼接和序列映射时会产生很多麻烦,但是在ChIP-Seq实验中,段序列具有很大价值,因为序列的结合位点通常都比较短。

2 ChIP-Seq数据分析

ChIP-Seq的难点是测序后的生物信息学分析,DNA打碎方法、染色质开放程度的不均一性、PCR扩增偏向性、基因组的重复程度以及测序和序列比对过程中的错误都会引入系统误差造成假阳性,尽可能剔除假阳性并揭示出数据背后的机制是需要分子生物学与计算生物学工作者协同努力。对ChIP-Seq数据的处理主要分为四个部分:数据预处理、序列比对、峰值检测和模体分析。

2.1 ChIP-seq数据格式及预处理

目前,IIIumina公司测序仪产出的测序数据基本都是FASTQ格式,即一种含有测序质量的FASTA文件[17]。FASTQ格式以测序读段为单位存储,每条读段占四行,第一行开头为“@”后接读段标识,第二行为测序出的碱基序列,第三行开头为“+”后接读段ID,因读段ID一般与第一行相同,所以有时可以省略以节省空间。第四行为测序质量,一般用字符表示,长度与第二行相同,对应于相应位置碱基的测序质量。由于测序仪器会得到较低质量的数据,为了去除一些低质量的数据需要进行预处理。

此外,原始数据也可以从基因表达综合数据库GEO(Gene Expression Omnibus)中下载得到。GEO是NCBI下的一个的基因表达的大型数据库,其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交数据。当文章在科学文献上发表后,其中所产生的高通量实验数据就将放在公有领域上,供其他研究者免费下载,使得实验数据中的海量信息能够被多次分析与进一步挖掘。与此同时,部分文章会将数据传送到序列存档库SRA (Sequence Read Archive)。SRA数据库的数据集包含数据的上传时间,标题,物种,实验类型,文章引用,实验设计,下载地址,数据大小等信息。

2.2 序列比对

由于单核苷酸多态性的存在,在短序列比对[18]时候必须要允许1-3个匹配错误,比对的时候对于不能唯一的比对到基因组的序列,可以去掉或允许多重比对,通常,多重比对带来较高的敏感度,因为它允许我们检测较低的覆盖度的区域。

目前有多种序列比对工具,但是Bowtie[19]是其中最快的而内存应用效率很高的佼佼者(表1),它采用一种称作Burrow-Wheeler变换(BWT)的压缩算法对参考基因组序列进行索引,使用大约 2.2GB(2.9GB 用于双末端测序)的内存,就可完成人类基因组的序列比对。每小时可以比对超过25,000,000 段长度为35bp的DNA序列。Bowtie还可以同时启动多个线程来加快速度,这对于多核CPU来说尤为重要。尽管大部分软件都允许在比对中插入间隙,但是对于ChIP-Seq实验来说,寻找单核苷酸多态性或者插入与缺失并不是重点。唯一序列占整体序列数量的百分比是分析人员需要重点考虑的问题。

表 1 序列比对环节中的一些常用软件

软件用途软件主要特点

序列比对ELAND[20]

Illumina 默认软件;比对过程中不允许碱基的空缺,且比对

序列长度受限。

BWA[21]

基于 BWT(Burrows-Whe

eler transform)算法;运算快速高

基于 BWT(Burrows-Wheeler transform)算法;运算快速高

效,比对过程中允许适度插入与缺失。

MAQ[22]

比对过程中不允许碱基的空缺,但能考虑到每个碱基的质量

指数。

SOAP[23]比对过程中允许少量碱基的空缺和错配。

Bowtie 基于BWT算法;速度超快,且具备高存储效率。

无论从哪个方面来看,Bowtie都很合适,因此本流程采用Bowtie完成序列的比对这项工作。经过比对之后,原始的测序读段将带有其在基因组中的位置信息,或者说,该测序读段被回贴到了基因组中。

2.3 峰值检测

峰值检测是ChIP-Seq数据分析的一个关键步骤,很多后续分析都取决于峰值检测的结果。峰值检测是根据峰富集区域来预测DNA结合蛋白在基因组上结合的区域。不同的DNA 结合蛋白在基因组上的分布模式是不同的,具体体现于ChIP-Seq峰形的不同,如转录因子的峰型为尖锐状,即信号高度集中。峰值检测是一种用于鉴别读段数特别集中的区域的手段,表2列举了ChIP-Seq数据分析过程峰检测环节中常用到的软件。在峰值检测的过程中,需要综合考虑灵敏度和特异度之间的平衡,因为增加灵敏度将降低特异度,增加特异度将

降低灵敏度。只有针对不同的DNA结合蛋白选择合适的峰值检测算法和数据标准化方法,

才能取得灵敏度和特异度之间的最佳平衡。

表 2 峰值检测环节中的一些常用软件

软件用途软件主要特点

峰值检测

MACS[24]

能自动将数据调整成动态泊松分布;且峰值检测过程可以

不依赖对照组数据,自动进行数据拟合。

PeakSeq[25]

峰值检测过程中能兼顾基因组区域结构特点;通过计算

FDR 来确定峰富集区域。

ZINBA[26]

峰值检测过程

中能兼顾基因组区域结构特点;可以分析尖

峰值检测过程中能兼顾基因组区域结构特点;可以分析尖

锐状峰型和连绵状峰型两类 ChIP-Seq 数据。

2.4 模体分析

模体就是DNA、蛋白质等生物大分子中的保守序列。每种转录因子都具有不同的模体特征。本文分析比较了3种不同分析平台DMINDA,MEME和CisGenome。

DMINDA是一种Web server软件[27],可以使用云计算,即将数据提交到网页服务器进行分析处理,也具有相应的客户端程序,主要运行在Windows系统下,具有处理数据快,模体分析单一性强等特点。数据经过序列比对和峰值检测之后,在经过进一步处理之后,就可以使用DMINDA进行模体分析。模体分析DMINDA软件使用步骤与结果显示如图2所示。

图2 (A)DMINDA主页面,选择模体分析;(B)上传数据,设置参数,提交即可开始运算;(C)

显示模体分析结果

ChIP-Seq技术在转录因子结合位点分析的应用

MEME[28]也是一个综合性强并且应用广泛的一个Web Server软件,同样也是可以在线处理数据和客户端处理数据(主要运行于Uinix)。MEME网页版具有局限性,上传的峰数目不能超过1000条,所有脱氧核苷酸总数不能超过600000个,当使用客户端软件时无任何限制。虽然MEME软件处理数据速度相对缓慢,但其具有可信度较高、结果稳定等特点,目前应用比较广泛。模体分析MEME软件使用步骤与结果显示如图3所示。

ChIP-Seq技术在转录因子结合位点分析的应用

图3(A)MEME主页面,选择模体分析;(B)上传数据,设置参数,提交即可开始运算;(C)显

示模体分析结果

CisGenome[29]是一款综合性分析软件,目前主要用于分析ChIP-chip和ChIP-Seq数据,其独特的模块化设计开创了可视化用户界面和数据自定义批量处理功能,支持数据间的交互式分析。此外,CisGenome浏览器是典型的本地版基因组浏览器,所有数据、注释信息都存于本地文件,因此不需要网络连接,方便内部考查数据用。借助CisGenome来处理ChIP-Seq海量数据将会事半功倍。CisGenome的优点在于软件的图形化,该软件运行于Windows系统之上,界面简单,操作简便,但必然会带来运行缓慢。模体分析GisGenome 软件使用步骤与结果显示如图4所示。

ChIP-Seq技术在转录因子结合位点分析的应用

图4(A)GisGenome上传数据,设置参数,提交即可开始运算;(C)显示模体分析结果

3 基于ChIP-Seq的转录因子结合位点研究

转录因子是一类很重要的蛋白质分子,其可以通过与DNA结合,调控一些下游效应分子,引发一系列级联反应,从而发挥强大的生物学作用.全基因组范围内明确这些转录因子的结合位点是揭示这些转录因子生物学功能和机制的基础,同时也是绘制基因调控网络不可缺少的部分。

肝脏是一以代谢功能为主的器官,同时也制造消化系统中的胆汁。Wederell[30]等研究成年小鼠肝脏组织中转录因子Foxa2结合位点,一共识别了11000个位点,其中近一半的肝脏表达基因含有相关的Foxa2结合位点。Schmidt等[31]利用ChIP-Seq技术研究多种脊椎动物肝脏中表达的两个转录因子CEBPA和HNF4A,虽然两个转录因子都有高度保守的DNA 结合结构域,绝大多数情况下表现出特异性。Bochkis等[32]通过ChIP-Seq全基因组定位分析高度同源的转录因子Foxa1和Foxa2,发现虽然Foxa1和Foxa2肝脏中的结合位点大部分重叠,在体内它们各自还有跟其他调控元件结合。肝脏的发育经历了一系列内胚层和中胚层之间复杂的相互作用,在Xu等[33]先前的研究中应用ChIP-Seq技术发现了Foxa2在DE 细胞全基因组中的结合位点,并在全基因组的水平上证明Foxa2具有先锋因子的作用,且Foxa2对特异靶基因的作用是通过修饰靶基因片段中的H3K4me2组蛋白位点实现。2010年, Hansook等[34]利用ChIP-Seq分析转录因子FXR在肝细胞染色质中的结合,发现一个额外的核受体半位点和FXR结合。之后,Hansook等[35]又分析了LRH-1在全基因组中的结合位点,进一步证实了在整个基因组范围内LRH-1与FXR具有相互作用。此外,分析结果还表明, LRH-1结合的基因位点和FXR的结合位点靠近。LRH-1/FXR共同结合的基因都与脂质代谢相关。这些结果表明,LRH-1招募FXR激活脂质代谢相关基因的表达。研究还发现,部分FXR 跟LRH-1没有共同结合域,表面FXR可能跟RORs和NR3As家族成员相互作用,调节其他代谢途径。

细胞核接头蛋白LDB1是多蛋白转录复合体中的一个核心成分。Li等[36]发现,在小鼠胚胎和成体造血干细胞中LDB1起到关键作用。在造血干细胞和前体细胞中敲除该基因会造成一些维持多能性相关基因的转录下调,ChIP-Seq结果显示,LDB1形成的复合体结合在这些基因的启动子区域,暗示LDB1维持造血干细胞中起核心作用。多能造血前体细胞是一种干细胞样细胞,表达各种基因,且有分化成包括免疫系统细胞在内的大量不同类型血细胞的能力。Zhang等[37]利用ChIP-Seq技术在小鼠全基因组内找出造血前体细胞转化成定型T 细胞中起作用的所有基因,并确定了每个基因在发育过程中的转录时间点。Olig2是一种少突胶质细胞转录因子,与前体细胞增殖和向少突胶质细胞分化密切相关。Yu等[38]利用ChIP-Seq进行全基因组分阶段研究发现Olig2充当了一种预定位因子,引导染色质重塑酶细胞核接头蛋白LDB1是多蛋白转录复合体中的一个核心成分。Li等[36]发现,在小鼠胚胎和成体造血干细胞中LDB1起到关键作用。在造血干细胞和前体细胞中敲除该基因会造成一些维持多能性相关基因的转录下调,ChIP-Seq结果显示,LDB1形成的复合体结合在这些基因的启动子区域,暗示LDB1维持造血干细胞中起核心作用。多能造血前体细胞是一种干细胞样细胞,表达各种基因,且有分化成包括免疫系统细胞在内的大量不同类型血细胞的能力。Zhang等[37]利用ChIP-Seq技术在小鼠全基因组内找出造血前体细胞转化成定型T 细胞中起作用的所有基因,并确定了每个基因在发育过程中的转录时间点。Olig2是一种少突胶质细胞转录因子,与前体细胞增殖和向少突胶质细胞分化密切相关。Yu等[38]利用ChIP-Seq进行全基因组分阶段研究发现Olig2充当了一种预定位因子,引导染色质重塑酶到达少突胶质细胞活性靶点,从而激活少突胶质细胞特定基因表达。Ouyang等[39]利用ChIP-Seq技术研究小鼠胚胎干细胞,发现大约有65%的基因表达是由12个转录因子调控的。他们鉴定了两组转录因子。其中第一组通常作为激活剂起作用,第二组可能依赖于靶点不同或作为激活剂,或作为抑制剂。这两组转录因子紧密协作,激活胚胎干细胞中差异化上调的基因。在缺乏第一组转录因子结合时,第二组转录因子结合胚胎干细胞中被抑制的基因及早期分化中去抑制的基因。

4结论与展望

目前,ChIP-Seq已广泛应用于研究一些经典转录因子和一些新的转录因子在全基因组上的结合情况,实现全基因组层面分析一些经典的转录因子的调控网络,或为新转录因子的功能研究提供一些线索。研究人员可通过分析这些转录因子结合序列的特征发现它们的经典作用基序或协同作用因子。研究人员亦可通过分析这些转录因子在基因组上的位置分布情况来拓展其基因调控作用。之前认为转录因子通常分布在基因启动子区和增强子区,然而通过ChIP-chip和ChIP-Seq考察一些转录因子在基因组上的分布情况,发现有些转录因子结合位点分布在远离已知基因TSS的位置或广泛分布在整个基因组上,这可能暗示新的靶基因或新的调控机制的存在。此外,通过比较某转录因子在不同阶段或不同状态的组织或细胞中靶定位点的差异,研究人员还可分析该转录因子在细胞不同阶段或不同状态下的不同作用。ChIP-Seq等技术通过系统整合DNA与蛋白质相互作用的数据,在揭示基因表达调控的若干机制及构建更加详细的基因表达调控网络图谱中发挥无可替代的作用。

参考文献:

[1] Messina D N, Glasscock J, Gish W, et al. An ORFeome-based analysis of human transcription factor genes and the construction of a microarray to interrogate their expression[J]. Genome research, 2004, 14(10b): 2041-2047.

[2] Albert I, Mavrich T N, Tomsho L P, et al. Translational and rotational settings of H2A. Z nucleosomes across the Saccharomyces cerevisiae genome. Nature, 2007, 446 (7135): 572-576. [3] Robertson G, Hirst M, Bainbridge M, et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat Methods, 2007, 4 (8): 651-657.

[4] Johnson D S, Mortazavi A, Myers R M, et al. Genome-wide mapping of in vivo protein-DNA interactions. Science, 2007, 316 (5830): 1497-1502.

[5] Massie CE, Mills IG. ChIPping away at gene regulation. EMBO Rep, 2008, 9(4): 337–343.

[6] Chen H, Lin RJ, Xie W, Wilpitz D, Evans RM. Regulation of hormone-induced histone hyperacetylation and gene activation via acetylation of an acetylase. Cell, 1999, 98(5): 675–686. [7] Shang Y, Hu X, DiRenzo J, Lazar MA, Brown M. Cofactor dynamics and sufficiency in estrogen receptor-regulated transcription. Cell, 2000, 103(6): 843–852.

[8] Schones D E, Zhao K. Genome-wide approaches to studying chromatin modifications. Nat Rev Genet, 2008, 9 (3): 179-191.

[9] 滕晓坤, 肖华胜. 基因芯片与高通量DNA 测序技术前景分析[J]. 中国科学: C 辑, 2008, 38(10): 891-899.

[10] Choi H, Nesvizhskii A I, Ghosh D, et al. Hierarchical hidden Markov model with application to joint analysis of ChIP-chip and ChIP-seq data[J]. Bioinformatics, 2009, 25(14): 1715-1721. [11] Zhang Y,Liu T, Meyer CA, et al. Model-based analysis of ChIP-seq(MACS)[J]. Genome Biol, 2008, 9(9): R137.

[12] Orlando V,Strutt H,Paro R.Analysis of chromatin structure by in vivo formaldehyde cross-linking[J].Methods, 1997, 11(2): 205-214.

[13] Shang Y, Hu X, Direnzo J, et al.Cofactor dynamics and sufficienc

y in estrogen receptor-regulated transcription[J]. Cell, 2000, 103(6):843-852.

[13] Shang Y, Hu X, Direnzo J, et al.Cofactor dynamics and sufficiency in estrogen receptor-regulated transcription[J]. Cell, 2000, 103(6):843-852.

[14] Cosseau C,Azzi A,Smith K,et al.Native chromatin immunoprecipitation(N-ChIP)and ChIP-Seq of Schistosoma mansoni:Critical experimental parameters[J].Mol biochem Parasitol, 2009, 166(1): 70-76.

[15] Sun JM,Chen HY,Davie JR.Differential distribution of unmodified and phosphorylated histone deacetylase in chromatin[J]. J Biol Chem, 2007, 282(45): 33227-33236.

[16] Szalkowski A M, Schmid C D. Rapid innovation in ChIP-seq peak-calling algorithms is outdistancing benchmarking efforts[J]. Briefings in bioinformatics, 2011, 12(6): 626-633.

[17] Cock P J A, Fields C J, Goto N, et al. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants[J]. Nucleic acids research, 2010, 38(6): 1767-1771.

[18] Park P J. ChIP–seq: advantages and challenges of a maturing technology[J]. Nature Reviews Genetics, 2009, 10(10): 669-680.

[19] Langmead B, Salzberg S L. Fast gapped-read alignment with Bowtie 2[J]. Nature methods, 2012, 9(4): 357-359.

[20] Cox A J. ELAND: Efficient large-scale alignment of nucleotide databases[J]. Illumina, San Diego, 2007.

[21] Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM[J]. arXiv preprint arXiv:1303.3997, 2013.

[22] Li H, Ruan J, Durbin R. Maq: Mapping and assembly with qualities[J]. Version 0.6, 2008, 3.

[23] Li R, Li Y, Kristiansen K, et al. SOAP: short oligonucleotide alignment program[J]. Bioinformatics, 2008, 24(5): 713-714.

[24] Zhang Y, Liu T, Meyer C A, et al. Model-based analysis of ChIP-Seq (MACS)[J]. Genome biology, 2008, 9(9): 1.

[25] Rozowsky J, Euskirchen G, Auerbach R K, et al. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls[J]. Nature biotechnology, 2009, 27(1): 66-75.

[26] Rashid N U, Giresi P G, Ibrahim J G, et al. ZINBA integrates local covariates with DNA-seq data to identify broad and narrow regions of enrichment, even within amplified genomic regions[J]. Genome biology, 2011, 12(7): 1.

[27] Ma Q, Zhang H, Mao X, et al. DMINDA: an integrated web server for DNA motif identification and analyses[J]. Nucleic acids research, 2014: gku315.

[28] Machanick P, Bailey T L. MEME-ChIP: motif analysis of large DNA datasets[J]. Bioinformatics, 2011, 27(12): 1696-1697.

[29] Jiang H, Wang F, Dyer N P, et al. CisGenome Browser: a flexible tool for genomic data visualization[J]. Bioinformatics, 2010, 26(14): 1781-1782.

[30] Wederell E D, Bilenky M, Cullum R, et al. Global analysis of in vivo Foxa2-binding sites in mouse adult liver using massively parallel sequencing[J]. Nucleic acids research, 2008, 36(14): 4549-4564.

[31] Schmidt D, Wilson M D, Ballester B, et al. Five-vertebrate ChIP-seq reveals the evolutionary dynamics of transcription factor binding[J]. Science, 2010, 328(5981): 1036-1040.

[32] Bochkis I M, Schug J, Diana Z Y, et al. Genome-wide location analysis reveals distinct transcriptional circuitry by paralogous regulators Foxa1 and Foxa2[J]. PLoS Genet, 2012, 8(6): e1002770.

[33] Xu C, Lv X, Chen E Z, et al. Genome-wide roles of Foxa2 in directing liver specification[J]. Journal of molecular cell biology, 2012, 4(6): 420-422.

[34] Chong H K, Infante A M, Seo Y K, et al. Genome-wide interrogation of hepatic FXR reveals an asymmetric IR-1 motif and synergy with LRH-1[J]. Nucleic acids research, 2010, 38(18):6007-6017.

[35] Chong H K, Biesinger J, Seo Y K, et al. Genome-wide analysis of hepatic LRH-1 reveals a promoter binding preference and suggests a role in regulating genes of lipid metabolism in concert with FXR[J]. BMC genomics, 2012, 13(1): 1.

[36] Li L Q, Jothi R, Cui K, et al. Nuclear adaptor Ldb1 regulates a transcriptional program essential for the maintenance of hematopoietic stem cells[J]. Nature immunology, 2011, 12(2): 129-136.

[37] Zhang J A, Mortazavi A, Williams B A, et al. Dynamic transformations of genome-wide epigenetic marking and transcriptional control establish T cell identity[J]. Cell, 2012, 149(2): 467-482.

[38] Yu Y, Chen Y,

Kim B, et al. Olig2 targets chromatin remodelers to enhancers to initiate oligodendrocyte differentiation[J]. Cell, 2013, 152(1): 248-261.

[38] Yu Y, Chen Y, Kim B, et al. Olig2 targets chromatin remodelers to enhancers to initiate oligodendrocyte differentiation[J]. Cell, 2013, 152(1): 248-261.

[39] Ouyang Z, Zhou Q, Wong W H. ChIP-Seq of transcription factors predicts absolute and differential gene expression in embryonic stem cells[J]. Proceedings of the National Academy of Sciences, 2009, 106(51): 21521-21526.