rmats是目前使用的最广泛的可变剪切分析软件,该软件不仅可以识别可变剪切事件,还提供了定量和组间差异分析的功能,功能强大,网站链接如下
该软件前后经历了多个版本,目前最新版本为v4.0.2, 相比之前的版本,v4.0之后的版本在运行速度,内存消耗,磁盘占用等方面进行了优化,最明显的就是运行速度,比之前快了100多倍。 安装也很简单,直接下载解压缩即可使用,这里不赘述。rmats可以识别以下五种类型的可变剪切事件 软件的基本用法如下 python rmats.py --b1 b1.txt --b2 b2.txt --gtf ref.transcript.gtf --od out_dir -t paired --readLength 101 --cstat 0.1 --libType fr-unstranded b1.txt中保存的是每个样本比对参考基因组的bam文件的路径,示例如下 /bams/rep1.bam,/bams/rep2.bam 这种用法从bam文件开始,实用性更强,除此之外,也支持从fastq文件开始,用法如下 python rmats.py --s1 s1.txt --s2 s2.txt --gtf ref.transcript.gtf --bi /STARindex/hg19 --od out_dir -t paired --nthread 6 --readLength 151 S1.txt中保存的是每个样本fastq文件的路径,rmats会自动调用STAR进行比对, rmats中核心功能就是定量和差异分析,解释如下 1. 定量rmats采用exon inclusion level 来定义样本中可变剪切事件的表达量,以外显子跳跃为例,正常的isoform称之为Exon Inclusion Isofrom, 发生了外显子跳跃的转录本称之为Exon Skipping Isofrom, 示意如下 比对到inclusion isoform上的reads用 可以看到,exon inclusion level实际上是inclusion isofrom所占的比例,计算时,用长度校正了原始的reads数。其他类型的可变剪切事件也可以划分成上述两种isoform, 示意图如下 可以看到,rmats在计算isofrom的长度时,提供了两种方式,二者的区别就在于是否考虑跳过的exon的长度,详细的公式在上图中共也有给出。 2. 差异分析rmats 在差异分析时,比较的就是两组样本中inclusion level的差异,给定阈值
在输出目录下,有很多的文件,我们重点关注其中两种文件即可。
这里的
除了定量和差异的结果,还给出了每种可变剪切事件对应的exon的区间信息,示意如下 以上示例是外显子跳跃中的区间信息,其他类型的表头会有一定差异,但是意思是一样的。 rmats中,识别可变剪切是以exon为单位的,只需要比较邻近的3到4个exon的表达情况,就可以确定一个可变剪切事件是否发生,这个思路从可变剪切最核心的地方,即exon的变化出发进行分析,直接有效,但是由于其对问题的高度抽象和简化,导致对应的结果看起来不够直观。 ·end· |
|