在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组fasta
文件包含哪几个部分.
以GRCh38
版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:
部分结果如下:
上图只显示了部分结果,其实远远不止上图这几条,上面这个GRCh38
文件中一共有3366
条序列,前25
条还好理解,就是22
常染色体+X
+Y
+线粒体.但后面的chr1_.*_random
又是什么呢.
人基因组fasta注释文件可以分为以下几部分序列:
Primary assembly
,包含以下三部分:
Assembled chromosomes:chr1
-chr22
,chrX
,chrY
和chrM
的序列.
Unlocalized sequence:以_random
结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.
Alternate contigs, alternate scaffolds或 alternate loci,以alt
结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如1号染色体
有两条,但fasta
文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了alt
序列来补充说明. 但这样的alt
序列在测序分析map
的的过程中容易产生multiple-mapping
低质量的 reads
.而GATK的ZeroMappingQuality
会将这样的reads过滤掉.
PAR 区域: 伪染色体序列(pseudoautosomal region)
,PAR区域的基因在X
和Y
染色体上都存在.但在map
序列时会造成multiple-mapping reads
,所以需要其中一条染色体(如y
染色体)上的PAR
区域mask掉.
decoy基因组:包含人疱疹病毒(EBV)基因组的序列.
关于基因组版本
在下载基因组文件的时候,可以发现即使是GRCh38版本,也有:GRCh38.p6
,GRCh38.p11
等小版本.这里的p是Patchs
指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种patch
:
关于analysis set
在下载基因组文件时,常会看到analysis set
的基因组文件:
常用基因组文件只包含上面提到的Primary assembly
,而analysis set
还包含alt序列
,PAR序列
,decoy基因组
.这些对于做基因组变异分析是必须的.可以看出笔者上面用来示范的那个GRCh38
文件是analysis set
.