搜索

分享

QQ空间 QQ好友新浪微博微信

【原】解密Hi-C数据分析中的分辨率

生信修炼手册 2019-12-24

展开全文

Hi-C基于传统的染色质构象捕获技术，在DNA连接时引入生物素标记分子，标记交联的染色质，然后富集带有生物素标记的junction reads, 再结合高通量测序和下游的生物信息学分析，可以在全基因组范围内研究染色质的空间互作关系。

在Hi-C文库中，我们得到的是互作染色质形成的junciton reads, 通过将这些reads 比对到参考基因组之后，可以分析染色质之间的互作。以下图为例

图中蓝色和红色对应的染色质区域有互作，黑色和黄色对应的染色质区域有互作，在对应的Hi-C文库中，我们可以得到如下所示的junction reads

将这些reads正确比对到参考基因组上之后，就可以确定对应的染色质区域之间存在互作，而对应的junction reads的数目越多，则代表两个区域交互作用发生的频率越高。

对于所有区域的互作信息，通常会用一个交互矩阵interaction matirx来表示，该矩阵是一个方阵，每一行或者列都代表一个染色质区域，方格的颜色代表代表两个区域交互作用的强弱，示意如下

在构建矩阵的过程中，我们首先需要确定每一行代表的染色质区域的范围，互作的片段是通过酶切来得到的, 理论上存在10的11方种唯一的酶切片段。如果想要精确分析所有酶切片段之间的交互，首先需要足够的测序深度，涵盖所有类型的酶切片段，这就要求非常庞大的测序数据量，其次对于如此庞大的交互矩阵，数数据分析阶段对于计算资源的消耗也是一个天文数字。

为了有效利用Hi-C文库中的信息，科学家提出了binning的概念，将基因组划分为等长的窗口，这样的窗口称之为bin, 利用窗口内reads的分布来研究不同窗口之间的互作关系。这样的处理相比最原始，最直接的染色质互作数据，其分辨率确实是有一定程度的丢失，但是基于全基因组范围，仍然能够挖掘出很多有效信息。

bin窗口的长度称之为分辨率。如果分辨率为1Mb, 以人类基因组为例，在交互矩阵中会有3000左右的行。bin窗口的长度越小，则基因组区域的划分越细致，对于染色质三维构象的研究的就越精细。

不同分辨率对于测序量的要求不同，适用的场景也不同。基于不同分辨率的Hi-C数据，陆续发现了A/B compartments, TAD拓扑结构域，染色质环等空间结构。

·end·

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生信修炼手册 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

生信修炼手册

关注对话

TA的最新馆藏

校准曲线的绘制的小技巧
手把手教你绘制最基础的列线图
文献阅读|Nomograms列线图在肿瘤中的应用
绘制cox生存分析结果的森林图
组间差异分析就要这样可视化！
冲击图和桑基图，傻傻分不清楚！

喜欢该文的人也喜欢更多

热门阅读换一换