分享

浅谈Deeptools

 闲庭之雨 2019-08-12

转自 生信人

浅谈Deeptools—生信之深海利器

做生信分析的,哪一个方向不得有一两个可依赖的软件,而近来我被Google团队开发的Deeptools的美貌与才华深深吸引 ,它能够有效的分析对deep-sequencing数据进行分析与可视化,是ChIP-seq,ATAC-seq 等分析的利器。
或许大家会有疑问 Deeptools=“美貌”+“才华”?杨澜曾说:“人们没有义务从你邋遢的外表来了解你的内在美”,那么我们先来瞅瞅Deeptools的外在美,二话不说,果断上图.
1. 软件说明文档中的美图: 

https://www./figure/Examples-of-images-created-with-deepTools-A-Overview-of-the-deepTools-workflow-that_fig2_262076117

2. 历年高分文章中的Deeptools美图:

Embryonic transcription is controlled by maternally defined chromatin state 

Two independent modes of chromatin organization revealed by cohesin removal

The pioneer factor OCT4 requires the chromatin remodeller BRG1 to support gene regulatory element function in mouse embryonic stem cells

如此美貌,是否让你心动?
既然心动,就让我们继续看看它的才华,也就是说它能干什么?
首先Deeptools 能够处理BAM 和bigWig 文件,而它其中有以下这些模块,让我来简述一下这些模块的基本功能~~
multiBamSummary
针对bam文件,用来计算两个或者多个bam文件在特定基因区域的覆盖的reads数
multiBigwigSummary
针对BigWig文件,可计算多个bigWig文件特定基因区域的信号值
correctGCBias
主要针对GC偏好性对数据进行矫正。
bamCoverage
这块的主要功能呢,简单来说就是吃进去的是bam文件,流出来的是bigWig或者bedGraph,以划bin的形式计算每个bin的reads 覆盖度,用于IGV或则UCSC的基因区域展示,如下图所示:

bamCompare
bamCoverage 功能相似,只是bamCompare是基于两个bam文件的比较
bigwigCompare
bigwigCompare也是针对于两个bigwig文件,将基因组以划bin的形式,计算这两个bigwig文件在每个bin覆盖深度的比值
computeMatrix
此模块主要为后期的数据可视化模块plotHeatmap and plotProfiles.服务,针对bigWig文件,它用来计算对基因区域以及上下游划bin,计算每个bin内ChIP的信号强度
 
其次Deeptools可以对数据进行质控
plotCorrelation
主要是针对multiBamSummary 产生的矩阵,利用pearson 或者spearman 计算样本间的相关性

computeGCBias

Benjamini’s 的方法计算GC-bias 并进行可视化展示,如下图所示:

DeepTools的模块的功能的简述,只能算是抛砖引玉,若是你已经被DeepTools的才华所吸引,那么一定要看Deeptools的官方文档,详细链接如下:http://deeptools./en/latest/index.html

知道了DeepTools的满腹才华,如何才能发挥DeepTools的作用呢?在此,小编想要细致的介绍两个模块的使用,以来给大家举个栗子

· Correlation between BAM files 计算bam文件相关性)

· multiBamSummary

· 原理:

· 将基因组划bin,通过bam文件计算每个bin reads的覆盖度(Coverage)

· 用法:

· multiBamSummary  bins  --bamfiles  H3K9me3.sort.bam H3k27me3.sort.bam  H3K4me3.sort.bam H3K4me1.sort.bam  input.sort.bam --minMappingQuality  30  --region 1 --labels  H3K9me3 H3k27me3 H3K4me3 H3K4me1 input  -out readCounts.npz  --outRawCounts  readCounts.tab

· 参数讲解:

· bins 代表按照bin 划分基因组,默认10k为一个窗口

· --bamfiles 一系列已经sort过的bam文件

· --minMappingQuality 比对质量阈值

· --region 基因组的区域默认none 可以写成 1,chr1,chr1:456700:891000的形式

· --labels 标签

· -out 输出bin的readscount 矩阵,(npz 为numpy 存储的文件)

· --outRawCounts 同上,为tab分割的文本文件

· plotCorrelation

· 原理:

· 针对multiBamSummary 产生的矩阵,利用pearson 或者spearman 计算样本间的相关性

· 用法:

· plotCorrelation  -in  readCounts.npz –corMethod  spearman --skipZeros  --plotTitle  "Spearman Correlation of Read Counts" --whatToPlot  heatmap  --colorMap  PuRd –plotNumbers  -o  heatmap_SpearmanCorr_readCounts.png  --outFileCorMatrix  SpearmanCorr_readCounts.tab

· 参数讲解:

· -in 输入 ,文件为 multiBamSummary 产生的矩阵

· --corMethod 相关性分析的方法:pearson 或者spearman

· --colorMap 选取色系

· -o 图像输出路径:

· 结果展示

此图非常直观的展示了各个组蛋白之间的相关性

· 计算TSS 区域内的富集程度

·  computeMatrix

· 对基因区域以及上下游划bin,计算每个bin内Chip的信号强度

· 用法:

· computeMatrix   scale-regions -S  G_K4me3_1.bw    G_K27ac_1.bw  G_K4ME1_1.bw  G_K27me3   D_K4me3_1.bw    D_K27ac_1.bw  D_K4ME1_1.bw  D_K27me3  -R  up.Gene.bed   down.Gene.bed –beforeRegionStartLength  5000  --regionBodyLength  5000 –afterRegionStartLength  5000 --skipZeros  -o matrix.mat.gz

· 参数讲解:

· -S score file bigwig文件

· -R 参考基因组 bed文件,如果有多个bed的文件 以空格分开

· --beforeRegionStartLength 基因上游长度

· --regionBodyLength 基因body

· --afterRegionStartLength 基因下游长度

· plotHeatmap

· 基因的ChIP的信号强度按照基因上下游所有bin的信号强度的均值进行排序并通过热图进行展示

· 用法:

·  plotHeatmap -m matrix.mat.gz  -out compare_heatmap.png

· 参数讲解:

· -m computeMatrix 步骤所产生的矩阵

· -o 输出文件

· 结果展示:

转录因子的DNA结合强度信号强度从高到低排列,同时画出其他调控因子或组蛋白修饰结合信号。有助于我们从全基因组角度,了解转录因子或组蛋白修饰之间的关系

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多