一、技术原理基因组研究的维度可以分为很多种,例如下图所示 image
其中Hi-C是研究三维结构的一种方法。Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。 其中染色质构象捕获(3C)技术是用福尔马林瞬时固定细胞核染色质,用过量的限制性内切酶酶切消化染色质 - 蛋白质交联物,在 DNA 浓度极低而连接酶浓度极高的条件下用连接酶连接消化物,蛋白酶消化交联物以释放出结合的蛋白质,用推测可能有互作的目的片段引物进行普通PCR和定量PCR来确定是否存在相互作用。3C 技术假定物理上互作的 DNA 片段连接频率最高,以基因座特异性 PCR 来检测基因组中 DNA 片段之间的物理接触,最终以 PCR 产物的丰度来确定是否存在相互作用。
二、技术流程1、甲醛固定利用甲醛将样品固定,将细胞内蛋白与DNA、DNA与DNA之间进行交联,保存其相互作用关系,维持细胞内的3D结构。一般将活体样本在室温用 1-3%的甲醛处理 10-30min,但是此步骤会减少限制内切酶对DNA序列的消化效率,需要严格控制。 image.png
2、酶切序列利用限制性内切酶将DNA进行酶切,使交联两侧产生粘性末端。 打断后的片段大小会影响测序分辨率,一般有两种酶可供选择:6bp 的限制性内切酶,4bp 的限制性内切酶。后者具有更高的分辨率。EcoR1 或 HindIII 用于每4000bp切割一次基因组,在人类基因组中产生约100万个片段。 image.png
3、末端修复得到的片段具有平末端或粘性末端,然后将末端补平修复。利用末端修复机制,引入生物素标记的碱基,便于后续DNA纯化和捕获。 image.png
4、环化使用 T4 DNA连接酶将末端修复后的 DNA 进行环化,将含有互作的 DNA 片段之间进行环化。将连接DNA片段的蛋白质消化掉,得到交联片段。 image.png
5、DNA纯化和捕获将 DNA 解交联,纯化DNA,破碎为300 bp - 700 bp的片段,利用链亲和素磁珠捕获含有互作关系的DNA片段进行文库构建; 使用超声波或其他方式,再次打断片段。 image.png
6、上机测序用磁珠将带生物素的捕获,制作文库,上机测序。 image.png
三、分析步骤Hi-C的优势在于其结合了二代测序,这势必也使得其数据分析相对复杂了。目前比较成熟的数据分析流程大致包含6个步骤: (1) 前期raw reads过滤(跟一般二代测序数据处理基本一致) 分析流程可如下图所示: image
valid pairs的区分Valid Pairs:双端Reads分别来源于空间上相邻但线性上不相邻的两个酶切后的DNA片段,其能够提供有效的交互信息。 需要经过数据筛选,获取符合要求的valid pairs,用于后续比对和位置信号分析,最终才能用于contigs的染色体聚类。 筛选过程的示意图如下: 图片
(1)Unique valid pairs (2)Invalid pairs 四、Hi-C组装一般利用LACHESIS(Burton, J.N., et al. 2013)等软件根据得到的valid pairs信号支持,对基因组序列进行群组的划分、排序和定向,然后进行人工调图和检查,最终获得版本染色体水平基因组。 软件算法原理如下: 图片
根据得到的有效pairs,一对pairs一般就能提供图中的一组信号,而根据空间距离和序列距离成大致的正比关系,可以知道距离越近的contigs间,支持的pairs越多,信号越强。所以通过信号的强弱,可以区分contigs的内部情况,进行纠错:一般是打断错误拼接的contigs,调整contigs的方向,也可以区分contigs是否在一条染色体,进行聚类。最终得到一个较为合理的染色体版本基因组,而细节处无法被软件合理调整的地方,最终需要人工进行微调,形成一条对角线信号。 五、Hi-C测序技术的优势:
参考: |
|
来自: 新用户049551KQ > 《待分类》