分享

使用ASProfile分析可变剪切事件

 生信修炼手册 2019-12-24

ASprofile是一款识别可变剪切事件的软件,该软件可以直接将同一个基因的多个转录本进行比较,从而鉴定可变剪切事件,官网如下

/software/ASprofile/index.shtml

该软件安装比较简单,下载解压缩即可。基本用法如下

extract-as  transcript.gtf ref.fa.hdrs > as_events.txt

该脚本需要两个参数,第一个参数为转录本对应的gtf文件,在实际分析时,首先利用cufflinks或者stringTie从测序数据中组装到转录本序列,然后将组装的转录本与已知的转录本合并去冗余,用merge之后的非冗余转录本序列作为输入;第二个参数为基因组长度统计文件,后缀为hdrs, 内容如下

>chr1 /len=249250621 /nonNlen=225280621 /org=Homo_Sapiens(hg19) >chr2 /len=243199373 /nonNlen=238204518 /org=Homo_Sapiens(hg19) >chr3 /len=198022430 /nonNlen=194797135 /org=Homo_Sapiens(hg19)

每一行代表一条染色体,分别给出总长度,去除N碱基之后的长度以及物种信息。最后生成的文件中会给出不同可变剪切事件的详细结果。Asprofile中的可变剪切类型定义如下

1. 外显子跳跃

外显子跳跃的定义如下

分别用onoff表示发生了外显子跳跃前后的转录本,X前缀表示外显子的边界非精确配对,和之前的exon相比,差了几个bp。

单个外显子跳跃称之为exon skipping, 用SKIP表示,示意如下


多个外显子跳跃称之为cassette exons, 用MSKIP表示, 示意如下

2. 内含子保留

内含子保留的定义如下

分别用offon表示发生内含子保留前后的转录本,X前缀表示外显子的边界非精确配对,和之前的exon相比,差了几个bp。

单个内含子保留称之为retention of single intron, 用IR表示,示意如下

多个内含子保留称之为retention of multiple introns,用MIR表示,示意如下

3.  外显子替换

外显子替换称之为alternative exon, 用AE表示,示意如下

包含各种情况,比如exon的5’端不变,3’端发生变化,示意如下

exon的3’端不变,5’端发生变化,示意如下


exon的3’端和5’端同时发生变化,示意如下

4. 转录起始位点的替换

转录起始位点的替换称之为alternative transcript start, 用TSS表示,示意如下

5. 转录终止位点的替换

转录起始位点的替换称之为alternative transcript termination, 用TTS表示,和TSS类似,只不过是3’末端位置发生了改变,示意如下

上述文件中可变剪切事件是以转录本为单位进行展示的,每行代表一个转录本,存在冗余,当我们想要知道某个基因上发生的可变剪切的类型和数量时,该文件就不够直观,官方提供了summarize_as.pl脚本,可以方便的得到非冗余的可变剪切事件以及每个基因可变剪切事件的汇总信息,用法如下

perl summarize_as.pl  transcript.gtf as.events.txt -p prefix

该脚本会生成两个文件,后缀为nr的文件中,是非冗余的可变剪切事件;后缀为summary的文件中是每个基因可变剪切的类型统计,示意如下

通过Asprofile, 可以直接对同一个基因的多个转录本进行比较,从而鉴别不同的可变剪切事件,除此之外,Asprofile还提供了定量的功能, 可以计算fpkm值,通过collect_fpkm.pl脚本可以汇总多个样本的可变剪切结果,用法如下

perl collect_fpkm.pl sampleA.AS,sampleB.AS -s txt

多个样本用逗号连接,-s指定对应文件的后缀,通过样本名字加后缀识别对应的文件。该脚本会给出每个可变剪切事件在样本中的比例,基于这个比例我们可以进行差异分析。更多用法请参考官方说明和脚本的帮助文档。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章