【原】比对软件STAR创建索引文件（index）

生信交流平台 2021-12-29

展开全文

因为不连续的转录本结构，相对短的片段长度，和测序通量的不断提升，高通量RNA-seq数据的准确比对仍然是一个有挑战性且未解决的问题。当前可用的RNA-seq比对软件一般比对错误率较高，比对速度慢，受片段长度限制且比对偏差较大。STAR（Spliced Transcripts Alignments to a Reference，STAR）软件，使用了未压缩后缀阵列中的连续最大可比对种子搜索算法，接着对种子进行聚类和拼接。STAR在比对速度上胜过其他比对软件50多倍，在一个普通的12核服务器上，每小时比对5.5亿2 x 75 bp双端片段到人类基因组上，同时改进了比对敏感性和准确性。除了典型转录本外，STAR能够发现非典型剪切和嵌合（融合）转录本，并能够比对全长RNA序列。

STAR的比对分析基本上可以分为两步：一是genomeGenerate(类似于tophat的index)，二是：序列比对。

创建index，这一步只需要运行一次就可以了

STAR --runMode genomeGenerate \ --runThreadN 10 \ --genomeDir ./index \ --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \ --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \ --sjdbOverhang 75

—runMode：运行程序模式，默认是比对，所以第一步这个参数设置很关键
—runThreadN：运行的线程数，根据你自己电脑的配置来设置，数字越大运行越快
—genomeDir：这个参数很重要，是存放你生成index的文件路径，需要你事先建立一个有可读写权限的文件夹
—genomeFastaFiles 基因组fasta格式文件
—sjdbGTFfile GTF注释文件
—sjdbOverhang 这个值为你测序read的长度减1，是在注释可变剪切序列的时候使用的最大长度值

有一点需要注意，STAR建索引时特别消耗内存，能把你服务器内存全部用光，然后报类似于下面的错误。

STARApr 01 14:43:41 ..... Started STAR runApr 01 14:43:41 ... Starting to generate Genome files

EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genomeSOLUTION: please specify limitGenomeGenerateRAM not less than124544990592 and make that much RAM available