分享

人类基因组多大,你心里没有数吗?

 健明 2021-07-14

https://lh3./2017/11/13/which-human-reference-genome-to-use 

至于为什么会有这个投稿呢,后面的故事我慢慢道来!

我曾在生信菜鸟团写过《基因组各种版本对应关系

http://www./1469.html,可结合这两篇来看。

首先看译文

精简版:将reads映射到GRCh37或hg19,请使用hs37-1kg

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz

如果您映射到GRCh37并相信诱饵序列有助于更好的变异检测,请使用hs37d5

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

如果您将读取映射到GRCh38或hg38,请使用以下命令:

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

GRCh37/GRCh38还有其他几个版本。他们是做什么的呢?以下是一些潜在的问题:

1. 包括ALT重叠群。

ALT重叠群是非常大的变异,侧翼序列非常长,几乎与原始人类装配相同。大多数读取映射器将为侧链序列中的读取映射提供零质量的映射。这将降低变体调用和许多其他分析的敏感性。您可以使用ALT-aware映射器解决这个问题,但是没有主流的变体调用程序或其他工具可以利用ALT-aware映射。

2.  用长“N”填充ALT重叠块。

这与1有相同的问题,也不必要地增加了基因组的大小。它是更糟。

3. 包含多位序列。

在GRCh37和GRCh38中,chrX的假常染色体区域(PAR)也被置于chrY上。如果您使用包含两个副本的参考基因组,您将无法使用标准管道调用PAR中的任何变体。在GRCh38中,一些阿尔法卫星也被多次放置。正确的解决方案是在chrY上硬掩盖PAR和那些额外的alpha重复拷贝。

4. 未使用rCRS线粒体序列。

rCRS在群体遗传学中有着广泛的应用。然而,官方的GRCh37线粒体序列比rCRS长2个基点。如果你想分析线粒体的系统发育,这个2bp的插入会引起麻烦。GRCh38使用rCRS。

5. 将半模糊的IUB代码转换为“N”。

不过,这是一个非常小的问题。人类染色体序列含有少量的半模糊碱基。

6. 使用加入号而不是染色体名。

你知道CM000663.2对应GRCh38中的chr1吗?

7. 不包括未放置的和未定位的叠架。

这将迫使来自这些重叠基因组的读取被映射到染色体组装,并导致错误的变异检测。

现在我们可以解释其他版本的人类参考基因组有什么问题:

·    hg19/chromFa.tar.gz 来自 UCSC: 1, 3, 4 and 5.
·    hg38/hg38.fa.gz 来自UCSC: 1, 3 and 5.
·    GCA_000001405.15_GRCh38_genomic.fna.gz 来自NCBI: 1, 3, 5 and 6.
·    Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 来自EnsEMBL: 3.
·    Homo_sapiens.GRCh38.dna.toplevel.fa.gz 来自EnsEMBL: 1, 2 and 3.

使用不合适的人类参考基因组通常没什么大不了的,除非你研究的是受这些问题影响的区域。然而,其他研究人员可能正在研究这些生物学上有趣的区域,需要重新校准;将映射到不同版本基因组的数据聚合在一起,会放大问题。如果可能的话,最好选择正确的基因组版本。

背后的故事

翻译的咋样暂且不说,我们一起来回顾一下为什么会有这个翻译稿件吧!

有粉丝发邮件求助,问我为什么他跟着我的教程:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 报错:ERROR: the provided reference sequences include more than 4 billion bases 初步怀疑是电脑配置不够,就升级到了96GB内存,20核心CPU,1.2T硬盘,但是报错依旧!

所以我就让他指明是哪一个步骤代码问题,结果他告诉我下载的1G参考基因组解压后是54G,我的天!

有趣的是这个坑不只是一个人踩到了,看后记小编也是如此!

为了指出他的错误所在,邮件沟通太费劲,他提出来要加我微信,所以我就给了他一个小任务:

https://lh3./2017/11/13/which-human-reference-genome-to-use 

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多