因为不连续的转录本结构,相对短的片段长度,和测序通量的不断提升,高通量RNA-seq数据的准确比对仍然是一个有挑战性且未解决的问题。当前可用的RNA-seq比对软件一般比对错误率较高,比对速度慢,受片段长度限制且比对偏差较大。STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,使用了未压缩后缀阵列中的连续最大可比对种子搜索算法,接着对种子进行聚类和拼接。STAR在比对速度上胜过其他比对软件50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 75 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型转录本外,STAR能够发现非典型剪切和嵌合(融合)转录本,并能够比对全长RNA序列。 STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index),二是:序列比对。 创建index,这一步只需要运行一次就可以了 STAR --runMode genomeGenerate \ --runThreadN 10 \ --genomeDir ./index \ --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \ --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \ --sjdbOverhang 75
有一点需要注意,STAR建索引时特别消耗内存,能把你服务器内存全部用光,然后报类似于下面的错误。STAR Apr 01 14:43:41 ..... Started STAR run Apr 01 14:43:41 ... Starting to generate Genome files
EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genome SOLUTION: please specify limitGenomeGenerateRAM not less than124544990592 and make that much RAM available 此时你就要根据报错信息和你电脑的内存设置limitGenomeGenerateRAM参数。报错信息建议specify limitGenomeGenerateRAM not less than 124544990592,此处设置比所需内存高一点点,如果低于所需内存也会报错,所以可以设置成125G内存。另外线程数可以设置高一点,2个线程可能要跑两天多,40个线程只要一个小时左右,内存消耗会因为线程数变多而增加,不过不用担心,并不会成倍增加,40个线程内存消耗也就增加了10%。下面是如何通过limitGenomeGenerateRAM来这是内存。STAR --runMode genomeGenerate \ --runThreadN 10 \ --genomeDir ./index \ --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \ --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \ --sjdbOverhang 75 \ --limitGenomeGenerateRAM 125000000000 参考文献:
|
|