分享

使用deeptools查看reads分布特征

 生信修炼手册 2019-12-24

在chip_seq数据分析中,通常会对peak区域在基因组上的分布进行探究,查看其分布是否存在规律,比如是否在转录起始位点,或者转录终止位点附近存在富集,此时我们可以通过deeptools这个工具来实现。

首先通过computeMatrix这个命令,可以计算基因组区域上的分布,分成以下两种模式

  1. scale-regions

  2. reference-point

第一种模式代表一个区间,包含了起始和终止位置,第二种模式代表的是某一个位点,比如转录起始位点。对于这两个模式的区别,官网给出了很好的解释,示意如下

将所有的区域划分为等长的区间称之为bin, 然后计算每个bin内所有位点的测序深度,默认用所有位点测序深度的平均值来代表这个区间。通过这个命令计算得到中间结果文件之后,可以使用以下两个命令进行可视化

  1. plotProfile

  2. plotHeatmap

下面展示一个实际的例子,从bam文件开始,得到最终的可视化结果

1. 将bam文件转换为bigwig文件

通过bamCoverage命令,可以将bam文件转换为bigwig文件,用法如下

bamCoverage -b input.bam -o input.bw

2. 运行computeMatrix

这个命令有scale-regions和reference-points两种模式,这里以第二种为例进行展示,用法如下

computeMatrix reference-points \
-S inpnut.bw \
-R hg19.bed \
--binSize 10 \
--skipZeros \
-a 3000 \
-b 3000 \
-o matrix.gz \
--outFileNameMatrix matrix.tab

在输出的tab文件中,每一行代表一个转录本,和输入的bed文件中的转录本个数一致,每一列代表bin区间内的平均测序深度,列数的多少和区间的长度以及bin_sizz有关。在上面这个例子中,选择上下游各3kb的区间,bin大小为10bp, 所以总共有3000X2/10, 即600个区间。

在可视化时,区间个数越多,画出来的折线图会相对平滑,所以可以适当调整bin的大小,使画出来的图更加美观。

3. plotProfile

用法如下

plotProfile -m matrix.gz \
-out profile.pdf

生成的结果如下

4. plotHeatmap

用法如下

plotHeatmap -m matrix.gz -o heatmap.pdf

生成的结果分成了两部分,第一部分和plotProfile的结果相同,第二部分是一个热图,示意如下

就是将生成的tab文件中的内容绘制了一个热图,以上展示的都是基本用法,除此之外,还有很多的参数可以调整,绘制出更加美观的图片。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多