分享

Nature Plants | 回顾和展望20年间植物基因组测序

 kibcat 2021-12-02

在过去的20年里,植物基因组测序领域迅速发展,导致公共基因组资源的数量和质量有了明显提高。自2001年首次公布拟南芥(Arabidopsis thaliana)基因组以来,数百个植物基因组已被测序、组装,并在GenBank和其他基因组数据存库上公开。由于基因组大而复杂,多倍化水平不同,在历史上植物基因组一直难以得到较好地组装。然而,随着技术的进步,如长序列测序,和新的计算工具的产生,几乎任何物种的测序和组装将成为可能。

Image

2021年11月29日,美国密歇根州立大学Robert Vanburen团队在Nature Plants上发表了题为“Representation and participation across 20 years of plant genome sequencing”的研究论文,该研究对20年间陆地植物基因组测序进行了一个综合评价。作者根据对基因组可用性和质量的估计,描述了测序工作的分类分布。研究表明,越来越多的陆地植物基因组数据现在可以公开获取。随着长序列测序技术的发展,基因组组装质量有了很大的提高,但仍然存在较大的分类缺口。作者还描述了植物基因组学的地理景观,呼吁许多有实力的研究人员和机构努力扩大植物基因组测序领域的参与度。

首先,作者通过文献调研和数据库分析找到了798个陆地植物参考基因组。作者发现,随着长读测序的出现和完善,陆地植物基因组组装的数量和质量迅速增加。总的来说,74%的陆地植物基因组测序结果是在过去3年产生。Contig N50(包含至少50%组装长度的Contig集合中最短的Contig长度)近年来也显著增加,从2010年的99.5±48.1 kb增加到2020年的3395.2±735.4 kb,其主要原因来源于测序技术的发展。采用短读长测序技术(Illumina和Sanger)的Contig N50 (124.6±58.2 kb)比长读测序(PacBio 和Oxford Nanopore)的Contig N50 (4,033.4±618.9 kb)显著要低(图1)。

Image

图1:随着时间的推移,陆地植物基因组组装质量和可获得性的变化

除此之外,作者发现,虽然最早进行基因组测序和组装的小型二倍体基因组的物种有助于其他陆地植物基因组的组装,但分类上仍存在问题。在137个植物目中,其中有76个植物目缺乏代表性的参考基因组,62个目至少有1个参考基因组。比如,十字花科目有83个种的参考基因组,禾本目和唇形目分别有80个种和67个种的参考基因组。根据物种丰富度,比预期显著增加的参考基因组有十字花目,葫芦目,山毛榉目, 锦葵目,蔷薇目和茄目,比预期显著减少的参考基因组有真蕨目,天门冬目,菊目和龙胆目。然而,具有显著生态价值但较低经济价值的陆地植物的参考基因组组装质量不是很高(图2)。

Image

图2:陆地植物基因组组装质量和可获得性的比较

为了更好地了解全球对植物基因组学的参与,作者在数据库中确定了每个基因组组装的提交机构。如果提交的机构没有被列出,通过查看发表文章的通讯作者确认基因组组装的提交地理位置。作者发现,陆地植物基因组测序主要由中国(235个)、美国(212个)和欧洲国家(168个)完成,占比总测序的77%。

Image

图3:798个植物基因组序列提交机构的地理分布

最后,作者表明,植物基因组科学已经到达一个激动人心的时刻,越来越多样化的科学家群体正在产生一个迅速扩大的基因组资源库。然而,为了充分利用现代学科提供的机会,并确保该领域的公平性,植物基因组科学家应该采用长读测序技术进行基因组测序。尽管在测序领域取得了相当大的进展,但可利用基因组组合的植物的分类范围和驯化水平应继续扩大,应该把注意力集中在没有分支的植物上。

原文链接:

https://www./articles/s41477-021-01031-8.pdf

Image

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多