lncRNA的鉴定专题-主流的鉴定软件

微笑如酒 2018-02-06

展开全文

lncRNA鉴定的思路

lnc鉴定的思路是：先构建转录本并进行组装，然后将组装的转录本去除已知编码基因，最后使用编码评估软件进一步去除编码基因，得到非编码基因候选集，再使用“长度>200”和“外显子数>1”对非编码基因候选集进行过滤即可。

lncRNA鉴定的实现

构建并组装转录本
转录本构建
可以使用Cufflinks或Scripture，其区别是：
Cufflinks（推荐）：报出最少的可变剪切组合，力求转录本更长。
Scripture：报出最全的可变剪切组合，力求转录本更全。
Cufflinks使用方法
Cufflinks程序主要根据Tophat的比对结果，依托或不依托于参考基因组的GTF注释文件，计算出(各个gene的)isoform的FPKM值，并给出trascripts.gtf注释结果(组装出转录组)。
$ cufflinks [options]* 两个常用的例子： $ cufflinks -o cufflinks_output tophat_out/accepted_hits.bam # 构建转录本 $ cufflinks -p 8 -G transcript.gtf –library-type fr-unstranded -o cufflinks_output tophat_out/accepted_hits.bam # 定量转录本
普通参数
-h | –help -o | –output-dir default: ./ 设置输出的文件夹名称 -p | –num-threads default: 1 用于比对reads的CPU线程数 -G | –GTF 提供一个GFF文件，以此来计算isoform的表达。此时，将不会组装新的transcripts，程序会忽略和reference transcript不兼容的比对结果 -g | –GTF-guide 提供GFF文件，以此来指导转录子组装(RABT assembly)。此时，输出结果会包含ref erence transcripts和novel genes and isforms。 -M | –mask-file 提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该文件中常常是rRNA的注释，也可以包含线立体和其它希望忽略的transcripts的注释。将这些不需要的RNA去除后，对计算mRNA的表达量是有利的。 -b | –frag-bias-correct 提供一个fasta文件来指导Cufflinks运行新的bias detection and correct ion algorithm。这样能明显提高转录子丰度计算的精确性。 -u | –multi-read-correct 让Cufflinks来做initial estimation步骤，从而更精确衡量比对到genome多个位点的reads。 –library-type default:fr-unstranded 处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的lib rary-type为 fr-unstranded。
丰度评估参数
-m | –frag-len-mean default: 200 插入片段的平均长度。不过现在Cufflinks能learns插入片段的平均长度，因此不推荐自主设置此值。 -s | –frag-len-std-dev default: 80 插入片段长度的标准差。不过现在Cufflinks能learns插入片段的平均长度，因此不推荐自主设置此值。 -N | –upper-quartile-form 使用75%分为数的值来代替总的值(比对到单一位点的fragments的数值)，作normal ize。这样有利于在低丰度基因和转录子中寻找差异基因。 –total-hits-norm default: TRUE Cufflinks在计算FPKM时,算入所有的fragments和比对上的reads。和下一个参数对立。默认激活该参数。 –compatible-hits-norm Cufflinks在计算FPKM时，只针对和reference transcripts兼容的fragmen ts以及比对上的reads。该参数默认不激活，只能在有 –GTF 参数下有效，并且作 RABT 或 ab initio 的时候无效。
组装常用参数
-L | –label default: CUFF Cufflink以GTF格式来报告转录子片段(transfrags),该参数是GTF文件的前缀 –min-frags-per-transfrag default: 10 组装出的transfrags被支持的RNA-seq的fragments数少于该值则不被报道。 –min-intron-length default: 50 最小的intron大小。 –overlap-radius default: 50 Transfrags之间的距离少于该值，则将其连到一起。
转录本组装
使用Cuffmerge将构建的多个转录本进行组装：
Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf，Cuffmerge不是简单的去重求并集，得到的转录本会更加精准。
Cuffmerge使用方法
$ cuffmerge [options]* 输入文件为一个文本文件，是包含着GTF文件路径的list。常用例子： $ cuffmerge -o ./merged_asm -p 8 assembly_list.txt
使用参数
-h | –help -o default: ./merged_asm 将结果输出至该文件夹。 -g | –ref-gtf 将该reference GTF一起融合到最终结果中。 -p | –num-threads defautl: 1 使用的CPU线程数 -s | –ref-sequence / 该参数指向基因组DNA序列。如果是一个文件夹，则每个contig则是一个fasta文件；如果是一个fasta文件，则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来帮助对transfrags分类，并排除repeats。比如transcripts包含一些小写碱基的将归类到repeats.

Cuffmerge与Cuffcompare都可以合并转录本，两者的异同为：
相同点：都是合并转录本的工具
输入：若干gtf文件
输出：合并的gtf文件
不同点：
Cuffcompare：得到一个转录本的并集，不丢弃转录本
Cuffmerge：按基因位置深度重新构建转录本，深度优化转录本结构

去除编码基因
使用Cuffcompare将构建组装得到的merge.gtf和reference gtf进行比较，只选择class code为I、U与X。
i: A transfrag falling entirely within a reference intron u: Unknown, intergenic transcript x: Exonic overlap with reference on the opposite strand
Cuffcompare使用方法
$ cuffcompare [options]* [cuff2.gtf] … [cuffN.gtf] 使用例子： $ cuffcompare -o cuffcmp cuff1.gtf cuff2.gtf
使用参数
-h -V -o default: cuffcmp 输出文件的前缀 -r 参考的GFF文件。用来评估输入的gtf文件中gene models的精确性。每一个输入的gtf的is oforms将和该参考文件进行比较，并被标注为 overlapping, matching 或 novel。 -R 当有了 -r 参数时，指定该参数时，将忽略参考GFF文件中的一些transcripts。这些tran scripts不和任何输入的GTF文件overlapped。 -s / 该参数指向基因组DNA序列。如果是一个文件夹，则每个contig则是一个fasta文件；如果是一个fasta文件，则所有的contigs都需要在里面。小写字母的碱基用来将相应的transcri pts作为repeats处理。
预测编码与非编码RNA
预测编码与非编码RNA是鉴定lncRNA的关键，CPC、phyloCAF及CNCI可以完成预测，他们的区别如下：
CPC ：算法基于预测基因的开放阅读框
特点：模型不能跨物种，不适用高通量测序得到的RNA
PhyloCSF：算法基于物种间的保守性
特点：依赖于基因组，计算耗时
CNCI：算法基于二联密码子频率
特点：可以扩物种预测，人的模型能用其它各种动物上
有关于这三个软件的用法，见本周主题的后续文章，敬请期待。