lncRNA鉴定的思路lnc鉴定的思路是:先构建转录本并进行组装,然后将组装的转录本去除已知编码基因,最后使用编码评估软件进一步去除编码基因,得到非编码基因候选集,再使用“长度>200”和“外显子数>1”对非编码基因候选集进行过滤即可。 lncRNA鉴定的实现构建并组装转录本 转录本构建 可以使用Cufflinks或Scripture,其区别是: Cufflinks(推荐):报出最少的可变剪切组合,力求转录本更长。 Scripture:报出最全的可变剪切组合,力求转录本更全。 Cufflinks使用方法 Cufflinks程序主要根据Tophat的比对结果,依托或不依托于参考基因组的GTF注释文件,计算出(各个gene的)isoform的FPKM值,并给出trascripts.gtf注释结果(组装出转录组)。 $ cufflinks [options]* 两个常用的例子: $ cufflinks -o cufflinks_output tophat_out/accepted_hits.bam # 构建转录本 $ cufflinks -p 8 -G transcript.gtf –library-type fr-unstranded -o cufflinks_output tophat_out/accepted_hits.bam # 定量转录本
普通参数 -h | –help -o | –output-dir default: ./ 设置输出的文件夹名称
-p | –num-threads default: 1 用于比对reads的CPU线程数
-G | –GTF 提供一个GFF文件,以此来计算isoform的表达。此时,将不会组装新的transcripts, 程序会忽略和reference transcript不兼容的比对结果
-g | –GTF-guide 提供GFF文件,以此来指导转录子组装(RABT assembly)。此时,输出结果会包含ref erence transcripts和novel genes and isforms。
-M | –mask-file 提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该 文件中常常是rRNA的注释,也可以包含线立体和其它希望忽略的transcripts的注释。将这 些不需要的RNA去除后,对计算mRNA的表达量是有利的。
-b | –frag-bias-correct 提供一个fasta文件来指导Cufflinks运行新的bias detection and correct ion algorithm。这样能明显提高转录子丰度计算的精确性。
-u | –multi-read-correct 让Cufflinks来做initial estimation步骤,从而更精确衡量比对到genome多个 位点的reads。
–library-type default:fr-unstranded 处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的lib rary-type为 fr-unstranded。
丰度评估参数 -m | –frag-len-mean default: 200 插入片段的平均长度。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自主 设置此值。
-s | –frag-len-std-dev default: 80 插入片段长度的标准差。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自 主设置此值。
-N | –upper-quartile-form 使用75%分为数的值来代替总的值(比对到单一位点的fragments的数值),作normal ize。这样有利于在低丰度基因和转录子中寻找差异基因。
–total-hits-norm default: TRUE Cufflinks在计算FPKM时,算入所有的fragments和比对上的reads。和下一个参数 对立。默认激活该参数。
–compatible-hits-norm Cufflinks在计算FPKM时,只针对和reference transcripts兼容的fragmen ts以及比对上的reads。该参数默认不激活,只能在有 –GTF 参数下有效,并且作 RABT 或 ab initio 的时候无效。
组装常用参数 -L | –label default: CUFF Cufflink以GTF格式来报告转录子片段(transfrags),该参数是GTF文件的前缀
–min-frags-per-transfrag default: 10 组装出的transfrags被支持的RNA-seq的fragments数少于该值则不被报道。
–min-intron-length default: 50 最小的intron大小。
–overlap-radius default: 50 Transfrags之间的距离少于该值,则将其连到一起。
转录本组装 使用Cuffmerge将构建的多个转录本进行组装: Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf,Cuffmerge不是简单的去重求并集,得到的转录本会更加精准。 Cuffmerge使用方法 $ cuffmerge [options]* 输入文件为一个文本文件,是包含着GTF文件路径的list。常用例子: $ cuffmerge -o ./merged_asm -p 8 assembly_list.txt
使用参数 -h | –help -o default: ./merged_asm 将结果输出至该文件夹。 -g | –ref-gtf 将该reference GTF一起融合到最终结果中。 -p | –num-threads defautl: 1 使用的CPU线程数 -s | –ref-sequence / 该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是 一个fasta文件,则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来 帮助对transfrags分类,并排除repeats。比如transcripts包含一些小写碱基的将归类 到repeats.
Cuffmerge与Cuffcompare都可以合并转录本,两者的异同为: 相同点:都是合并转录本的工具 不同点: Cuffcompare:得到一个转录本的并集,不丢弃转录本 Cuffmerge:按基因位置深度重新构建转录本,深度优化转录本结构
去除编码基因 使用Cuffcompare将构建组装得到的merge.gtf和reference gtf进行比较,只选择class code为I、U与X。 i: A transfrag falling entirely within a reference intron u: Unknown, intergenic transcript x: Exonic overlap with reference on the opposite strand
Cuffcompare使用方法 $ cuffcompare [options]* [cuff2.gtf] … [cuffN.gtf]
使用例子: $ cuffcompare -o cuffcmp cuff1.gtf cuff2.gtf
使用参数 -h -V -o default: cuffcmp 输出文件的前缀
-r 参考的GFF文件。用来评估输入的gtf文件中gene models的精确性。每一个输入的gtf的is oforms将和该参考文件进行比较,并被标注为 overlapping, matching 或 novel。 -R 当有了 -r 参数时,指定该参数时,将忽略参考GFF文件中的一些transcripts。这些tran scripts不和任何输入的GTF文件overlapped。 -s / 该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是 一个fasta文件,则所有的contigs都需要在里面。小写字母的碱基用来将相应的transcri pts作为repeats处理。
预测编码与非编码RNA 预测编码与非编码RNA是鉴定lncRNA的关键,CPC、phyloCAF及CNCI可以完成预测,他们的区别如下: CPC :算法基于预测基因的开放阅读框 特点:模型不能跨物种,不适用高通量测序得到的RNA PhyloCSF:算法基于物种间的保守性 特点:依赖于基因组,计算耗时 CNCI:算法基于二联密码子频率 特点:可以扩物种预测,人的模型能用其它各种动物上 有关于这三个软件的用法,见本周主题的后续文章,敬请期待。
参考资料: 第四讲:转录本构建和lncRNA鉴定。测序中国。 Cuflinks的使用方法。生物日至|鸣一道。 Cuffmerge Cuffcompare Cuffdiff 的使用方法。生物日至|鸣一道。
更多整合精彩见 生信基础知识100讲
还有更多文章,请移步公众号阅读
|