分享

生物信息就该这么学(22):不同版本人参考序列的差别

 生物狗在求救 2021-05-26
做人全基因的变异检测,首先需要下载人全基因组参考序列。参考序列主要是一些已发表物种基因组的一些信息,可以包括基因组序列,基因的核酸序列,基因的氨基酸序列,坐标文件,注释信息等,需要针对不同的分析目的,选择合适的数据进行下载。

由于分析目的的不同,人全基因组参考序列包含很多的版本,同一版本有衍生出很多特殊版本,例如重复序列是否屏蔽,是否带端粒,中心粒,孢疹病毒,ALT序列,rCRS mitochondrial,是否包含没有定位到基因组上的序列,以及参考序列ID是否与后续注释数据库相同等。需要考虑的因素比较多。

不同版本人参考序列

众所周知人类基因组主要构成包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA),但是由于拼接结果不完整等原因,人全基因组参考序列存在多个版本。

而且即使是同样的序列,存储在不同数据库的命名也有很大差别,例如来自UCSC数据库中,一般命名为hg18,hg19,hg38。而在NCBI数据库中命名为GRch36,37,38,GRC是Genome Reference Consortium 的简称,而embl数据库中则是release然后跟一个版本号,有非常多的版本,千人基因组命名为b36,b37。

目前,广泛使用的版本是GRCH37和GRCH38。2009年,theGenome Reference Consortium (GRC)发布了第19版人类基因组GRCH37,也常被称为hg19。GRCH37被广泛应用于数据分析。2013年,GRC发布了GRCH38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCH37仍被相当程度地使用。

不同命名方式的关系

不同数据库采用不同的命名方式,UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。

而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。

这三种命名方式有一个对应关系。如下表所示:

表1不同版本基因组比较 

发布时间

UCSC

NCBI

ENSEMBL

1000G

——

hg18

GRCh36

release_52

b36

2009

hg19

GRCh37

release_59/61/64/68/69/75

b37

2013

hg38

GRCh38

76/77/78/80/81/82

---

GRCH37与GRCH38版本详细差别

根据GRC的官方文件,GRCH38是最精确的人类基因组。GRCH38基于金标准Sanger测序组装,读长约为1000bp,精确度是高通量测序的10倍。与GRCH37相比,GRCH38替换了8000个等位基因位点,校正了数个组装错误的基因组区域,补全了gap,添加了着丝粒序列,在178个区域组装了261条alternate loci,丰富了基因组的多样性。

已发表的论文认为GRCH38是GRCH37的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于GRCH38和GRCH37的数据分析差异。

参考材料1:https:///10.1016/j.ygeno.2017.01.005

参考材料2:https:///38335/get-to-know-your-reference-genome-grch37-vs-grch38/

表 2 GRCH37与GRCH38详细比较       

图片

不算线粒体DNA,GRCH37 和GRCH38分别有30956774123088269832个核苷酸。

在基因组fasta文件中,’N’表示gap或者未注释区域,GRCH37共有234350281个'N’,而GRCH38中有150630719个,减少了83719562个,占比35.7%。

外显子可以编码氨基酸,是人类基因组最重要的组成部分。从Ensembl(GRCh37 v37.75, GRCh38 v38.82)下载最新的Gene Feature Format(GTF)文件统计外显子区域。外显子区域由GRCH37的75231228个核苷酸增加到GRCH38的95505476个,约有26.9%的增幅。从全基因组水平看,外显子占比由2.43%增至3.09%。

基因组下载地址

常见的参考序列主要存储在国际三大核酸数据库NCBI,EMBL,DDBJ等,还包括UCSC以及一些物种单独的网站上。由于参考序列一般比较大,这里推荐使用ftp工具进行下载,ftp工具是专门的针对ftp文件传输协议的工具,下载速度更快,并且支持断点续传,可以使用xftp或者filezilla等访问ftp进行下载,也可以直接通过命令行ftp工具进行下载,例如lftp命令等。

NCBI: ftp://ftp.ncbi.nlm.nih.gov/
EMBL:ftp://ftp./pub/
UCSC:  http://genome./
JGI:https://jgi./
ENSEMBL:http://asia./info/about/species.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多