分享

ChromHMM

 ZBL1314ZBL 2022-04-26

作者:Jenny(简书)
ChromHMM是2012年由来自麻省理工学院布罗德研究所和美国马萨诸塞州剑桥市哈佛大学Jason Ernst和Manolis Kellis两人发表在Nature杂志上,值得注意的是全文仅一页篇幅(一张Fig)。但该软件的强大和实用让它这么多年来一直被生信人员频繁使用。

一、组蛋白修饰简介

在介绍ChromHMM之前,让我们先简单了解下组蛋白修饰。我们知道组蛋白修饰的种类繁多,包括乙酰化(Ac)、甲基化(Me)、泛素化(Ub)、类泛素化(Su)和磷酸化(P)。大部分研究的是发生在H3组蛋白上的乙酰化(Ac)和甲基化(Me)。下面表格给大家展示了常见的组蛋白修饰的特点及其与三维基因组结果的关系,基本上大家了解以下几种便可。

二、软件安装

ChromHMM软件是用Java语言编译的,安装使用超级简单。首先我们进入网站下载ChromHMM software (v1.20)(http://compbio./ChromHMM/ChromHMM.zip)。

unzip ChromHMM.zip
cd ChromHMM
ls -al *
java -mx1600M -jar ChromHMM.jar#测试能否运行

解压后我们可以查看到有以上文件,按照命令依次运行,最后java没有报错也就OK。

三、软件实操

运行java -mx1600M -jar ChromHMM.jar我们可以看到以下输出,其实我们主要是使用BinarizeBam和LearnModel模式,BinarizeBed模式跟BinarizeBam类似,只不过是用bam转成bed文件作为输入。小编这里习惯BinarizeBam模式,其他模式的使用和参数大家可以去阅读ChromHMM_manual.pdf,说明文档里都有很详细的解释。

01.数据准备

mkdir data data/bam
建立以上文件目录,并在data下手动生成cellmarkfiletablebams_Input.txt文件。将要用的ChIPseq bam文件都放在data/bam目录下。以下是文件内容。

ls data/bam/
cat data/cellmarkfiletablebams_Input.txt#文件用tab隔开

输出:

H3K4me1.bam、H3K4me3.bam、H3K27ac.bam、H3K9me3、H3K36me3、H3K27me3、Input.bam

02. BinarizeBam模式

1java -mx1600M -jar ChromHMM.jar BinarizeBam -f 2 -t outputsignaldir -paired -b 200 data/chrom.size data/bam/ data/cellmarkfiletablebams_Input.txt Input_FC2

参数说明:
-f 2表示与Input相比的信号比阈值(-f foldthresh);
-t outputsignaldir是信号输出目录,改参数可以不设,文件后面不需用到;
-paired 如何是paired-end测序需要设置该参数;
-b 是binsize的大小,一般设置200bp;
data/chrom.size 是基因组染色体大小,2列;

Input_FC2 是输出的主要目录结果,后面要用到,格式如下,该文件也可以自己编程用peaks文件得到,这样就不用运行BinarizeBam模式,其中0表示在没有信号,1表示有信号。

03.LearnModel模式

unset DISPLAY #有时候会出现Can't connect to X11 window server保存,该命名可以解决问题
java -mx1600M -jar ChromHMM.jar LearnModel -b 200 Input_FC2 Output_FC2_15 15 hg19

Input_FC2:输入目录,BinarizeBam模式得到的*_binary.txt,每条染色体一个,一个binsize一样;
-b 200:binsize大小,要与Input_FC2文件保持一致;
Output_FC2_15:输出目录;
15:染色体状态state个数,可以自己设置,如果组蛋白修饰种类较少,建议设置10;
hg19:物种的参考基因组,注意必须要ChromHMM软件支持的,如果没有的话需要自己建注释库,详见4部分。
点击Output_FC2_15/webpage_15.html,可以直接打开网页查看结果。
其中segments.bed为结果最终文件,而dense.bed可以直接用IGV可视化。
结果解读详见第5部分。

四、其他物种注释库的建立

刚才有提到过,如果涉及到ChromHMM软件不支持的基因组是不是就不能跑了,这种状况有办法解决,只需要在以下三个文件下手动生成自己物种相应基因组注释文件就可以。

cd ChromHMM
ls -al ANCHORFILES CHROMSIZES COORDS

以上为目前软件下载后支持的物种基因组版本。

假如我们要建立蜜蜂物种Amel_4.5基因组怎么办?

很简单,只需要在以下目录参考其他物种文件格式生成以下目录和文件就行,注意格式一定要对。

备注:

所有文件命名一定要规范,比如我们已经将基因组版本定义为Amel_4.5,那么所有目录和文件必须要有Amel_4.5字样,要不然软件无法自动识别。

CHROMSIZES(染色体大小文件夹) ANCHORFILES(基因TSS和TES位置文件)必须要有,COORDS文件下的各category数目和种类都可以自己设计,缺少某些不影响软件的运行,category越多越全,对结果解读的帮助越大。建议都用bed3的格式。

五、结果解读

cd ChromHMM
java -mx1600M -jar ChromHMM.jar -b 200 LearnModel SAMPLEDATA_HG18 OUTPUTSAMPLE 10 hg18

前面说了这么多,其实如果要看软件结果可以直接用ChromHMM给的测试数据AMPLEDATA_HG18(已生成*binary.txt.gz文件),按照以上命名得到输出目录OUTPUTSAMPLE。打开OUTPUTSAMPLE/webpage_10.html就可以查看结果。

结题报告包括运行命名参数和主要的结果图展示,其中Emission Parameter 文件是最主要的结果图,表示定义的10种state与各组蛋白修饰,CTCF的关系,其中颜色越深,代表该state与该ChIPseq数据越相关。染色体状态State的命名可以结合以上图的结果综合考虑。

此外:OUTPUTSAMPLE/GM12878_10_segments.bed是全基因组state的位置信息文件。

OUTPUTSAMPLE/GM12878_10_dense.bed可以直接用IGV可视化。

最后有关ChromHMM软件的应用及其State命名大家可以去阅读这篇文献:Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015),该文章定义了人111种常见细胞或者正常组织的ChromHMM state结果。数据下载链接https://egg2./roadmap/web_portal/chr_state_learning.html#core_15state

六、参考文献

1、Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012.
2、http://compbio./ChromHMM/
3、Kundaje, A., Meuleman, W., Ernst, J. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015). https:///10.1038/nature14248

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多