有兴趣的小伙伴可以点击上述链接查看。
今天给大家带来一款circRNA中癌症特异的可变剪切事件鉴定的软件。
背景
可变剪切是真核生物中重要且常见的一种基因表达方式,极大程度的丰富了真核转录调控过程。circRNA作为一个新兴的非编码RNA,也同样通过mRNA前体的可变剪切而来。
常见的可变剪切事件主要有:
外显子跳跃(Exon Skipping, ES)
内含子保留(Intron Retention, IR)
5'端可变剪接(Alternative 5' splice Site, A5SS)
3'端可变剪接(Alternative 3' splice Site, A3SS)
目前常用的可变剪切事件预测软件有 CIRI-full (更适合长片段,>250或300bp),以及短片段的CIRI-AS (50~150bp),但是并没有提供样本间比较的功能。
简介
CircSplice
是一款基于perl编写的流程,能够通过预测反向剪切事件识别circRNA,支持 GT-AG和CT-AC两种剪切位点。提供四种circ-AS事件类型结果:外显子跳跃(SE),内含子保留(RI),5'端可变剪接(A5SS)和3'端可变剪接(A3SS)。并且能够通过样本间的比对,标记出癌症或正常组织中特异表达的circ-AS。128G内参,2.2GB CPU的机器上,计算12个样本需要10分钟。 CircSplice
的详细工作流程如下:

文章于19年3月8日在线发表于Mol Cancer,链接地址:doi: 10.1186/s12943-019-0996-0.
github 地址:https://github.com/GeneFeng/CircSplice

流程
根据帮助文档, CircSplice的流程如下:
质控及过滤
$ fastqc Sample.R1.fq.gz Sample.R2.fq.gz
$ trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired Sample.R1.fq Sample.R2.fq --gzip -o Sample
# 再次确认
$ fastqc Sample.R1_trimmed.fq.gz Sample.R2_trimmed.fq.gz
Map to genome
# 建索引
$ STAR --runThreadN NumberOfThreads --runMode genomeGenerate --genomeDir /path/to/genomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --sjdbGTFfile /path/to/annotations.gtf
# mapping
$ STAR --genomeDir /path/to/genomeDir --readFilesIn Sample.R1_trimmed.fq.gz Sample.R2_trimmed.fq.gz --readFilesCommand zcat --runThreadN 10 --chimSegmentMin 20 --chimScoreMin 1 --alignIntronMax 100000 --outFilterMismatchNmax 4 --alignTranscriptsPerReadNmax 100000 --outFilterMultimapNmax 2 --outFileNamePrefix Sample
鉴定
$ CircSplice.pl Chimeric.out.sam hg38.genome.fa bed_refFlat_hg38.txt
# 这里我们将获得两个结果文件,Chimeric.out.sam.result.as(circ-As时间)和Chimeric.out.sam.result.circ(circRNA鉴定)
合并结果
# CircSplice-merge merges results according to the genomic coordinates with 2bp mismatch toleration.
# 路径中的文件夹及内容需要我们分别自行构建
$ CircSplice-merge.pl dir-as dir-circ
我们将获得如下两个结果:
AS_result 中每一行代表样本中的一个AS事件,并包含一下信息:
The AS type and genomic coordinates. The coordinates is reported according to the position of AS event, which is marked by red line in Figure 1.
Genomic coordinates of donor and acceptor sites of the circRNA including this AS event.
Sample type
Sample name and number of reads supporting this AS event.
Sample name and normalized number of reads of this AS event.
Annotation for this event: gene symbol, transcript and gene type (lncRNA or mRNA).
Strand.
Chromosome.
Genomic coordinates of reads supporting this event.
Genomic coordinates of annotated exons related to this event.
Circ_result 中每一行代表一条circRNA,并包含一下信息:
Genomic coordinates of donor and acceptor sites of this circRNA.
Sample type.
Sample name and number of reads supporting this AS event.
Sample name and normalized number of reads of this AS event.
Annotation for this event: gene symbol, transcript and gene type (lncRNA or mRNA).
Strand.
Chromosome.
CircSplice-merge 则保留结果中所有输入样本的所有circRNA或circ-AS。
下游分析
首先作者比较了肾透明细胞癌 (ccRCC)及膀胱癌分别和邻近正常组织中四种类型的circ-AS(SE,RI,A5SS,A3SS)的比率(Fig1 A,B),通过RT-PCR对预测的circ-AS事件进行预测(Fig1 C,D)。同时比较了四种类型AS事件的长度(Fig1 E,F),并对比lncRNA中所发生的剪切事件,拟说明circRNA在癌症过程中可变剪切的频率更高(Fig1 G,H)(这和形成机制的关系更大吧…)。

随后作者进一步检测了肿瘤特异的circ-AS在原癌基因和抑癌基因中的分布(Fig2 A,B, 肾透明细胞癌; Fig2 C,D, 膀胱癌)。并对来源基因以GO方法富集注释(Fig2 E,F)。

总体来说,这是一个可以很好的切入点,从circRNA的来源方式入手,阐述肿瘤组织与癌旁之间差异,获得更多维的比较结果。
补充
CircSplice.pl
也支持其他物种或者基因组的版本,需要自行构建,文本格式如下:
Chromosome
Start coordinates -2
End coordinates +2
Transcript ID
Number of exons
Strand
Gene symbol
Transcript ID
Chromsome
Strand
Start coordinates
end coordinates
Start coordinates of CDS
End coordinates of CDS
Number of exons
Start coordinates of each exon
End coordinates of each exon
Gene type (lncRNA or mRNA)
然后通过 reftobed.pl refFlat.txt
转换bed-refFlat
格式。
注意,该流程作者推荐的测序数据文库最好采用去rRNA及线性RNA。