前言 现有比对工具在做mapping之前,都需要下载对应物种的参考基因组做index,而如何选择合适的参考基因组是一件非常重要的事情。 现有的参考基因组存储网站三个:
UCSC 的命名是hg/mm系列,之前最常用的就是hg19参考基因组了。 FTP地址为:ftp://ftp./pub/release-92/,直接可以在目录下download fasta文件和gtf文件,选择对应的种属即可。 ENSEMBL会存储在多种形式fasta文件: example 首先根据组装的不同分为:
其实根据对序列的处理不同分为:
ftp://ftp./pub/release-92/gtf/ 这个网址包含了常见物种的GTF文件,以homo sapiens为例, gtf_files 命名规则为:
但是我自己选择的话,我倾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因为在比对的时候fasta文件里面是带有scaffold的信息的。 这边我就不带大家熟悉GTF的格式了。
问题
在NGS处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。 简单的回答就是说请选择的primary版本,因为toplevel版本会包含haplotype信息,多余的信息会增加比对工具的工作,所以这里选择primary就可以完成你的工作。 多出来的chr_unkonw.....的信息是啥?这是在构建基因组时已知存在于基因组内但是不知道位于哪条染色体上,随着注释工作的进展这些未知基因会越来越少。 结语 一些需要注意的小tips: |
|