NGS分析如何选择合适的参考基因组和注释文件

yjt2004us 2018-06-05

展开全文

前言

现有比对工具在做mapping之前，都需要下载对应物种的参考基因组做index，而如何选择合适的参考基因组是一件非常重要的事情。

现有的参考基因组存储网站三个：

ENSEMBL
UCSC
NCBI

UCSC 的命名是hg/mm系列，之前最常用的就是hg19参考基因组了。
ENSEMBL的命名规则则是采用GRCh/m的方式，GRCh37对应hg19，hg38对应GRCh38。
现阶段的话，我个人比较推崇从ENSEMBL上下载参考基因组和注释文件，以homo sapiens为例，https://asia./Homo_sapiens/Info/Index可以查看现有的基因版本和一些配套的信息。

FTP地址为：ftp://ftp./pub/release-92/，直接可以在目录下download fasta文件和gtf文件，选择对应的种属即可。

fasta文件

ENSEMBL会存储在多种形式fasta文件:

example

首先根据组装的不同分为：

.toplevel - Includes haplotype information (不知道比对软件工具如何处理)
.primary_assembly - Single reference base per position

其实根据对序列的处理不同分为：

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
dna_rm - Repeats masked (converts repeats to to N's)
dna - No masking

GTF文件

ftp://ftp./pub/release-92/gtf/ 这个网址包含了常见物种的GTF文件，以homo sapiens为例，

gtf_files

命名规则为：...gtf.gz

需要注意的是.abinitio后缀的GTF文件包括了Genscan和其他工具预测得到的注释信息，会全面一些。 但是未必可靠！
For the predicted gene set, an additional abinitio flag is added to the name file.

但是我自己选择的话，我倾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz，因为在比对的时候fasta文件里面是带有scaffold的信息的。

这边我就不带大家熟悉GTF的格式了。

需要注意，GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一样的，GENCODE的chr1在ENSEMBL上就是1。其余的地方是一样的（针对human & mouse而言）。

问题

在比对的时候，我该选用哪一个类型的fasta文件呢？
当然根据分析目的有不同选择，这个时候你需要问自己几个问题。

Repeat Masking

在NGS处理过程中，事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域，而这就给后续的比对带来很大的问题，所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组，但是以小写的形式存在的，故对比对没有影响。
这个问题问完了，dna_rm - Repeats masked出局，余下两者进入下一个问题。

Primary or Toplevel？

简单的回答就是说请选择的primary版本，因为toplevel版本会包含haplotype信息，多余的信息会增加比对工具的工作，所以这里选择primary就可以完成你的工作。