分享

基因组测序 “五福卡”你集齐了吗?

 生物_医药_科研 2019-01-31

当一个又一个物种的基因序列被测序、组装和公布,基因组学的市场开始酝酿着更大的突破和发展,同时推动基因组学发展的测序技术、组装算法、辅助手段也在不断推陈出新,以满足基因组学市场的强烈需求。例如,在测序技术方面,Illumina测序技术、PacBio测序技术、10X Genomics测序技术等发展迅猛;在辅助手段方面,Hi-C技术和Bionano光学图谱技术等不断成熟;五种技术各有所长,在组装算法方面更是百家争鸣、各有千秋,这让小编不禁感慨,这大概就是测序界的“五福卡”了吧,得五福者得文章! 

然而,技术和方法虽多,但对同一个基因序列,不同方法和技术得到的结果也有所差异,消耗的人力财力也是不尽相同。同样,不同物种由于本身基因组特性独特,适合研究它们基因组的技术和方法也是千差万别。张三从李四那儿沾到的“福卡”可能对自己毫无用处,所以,科研工作者们也在探求测序技术、组装算法、辅助手段三者间的一个平衡,能以最低的人力成本和财力成本完成对大部分物种基因组学的研究。 



值此新春佳节来临之际,配上五福的喜气,小编给大家简单解读一下最近发表在Gigascience上的“测序五福”大比拼“A critical comparison of technologies for a plant genome sequencing project.” 


01

Illumina和PacBio的初步组装比较 

(1)实验材料:选用自交二倍体墨西哥野生马铃薯Solanum verrucosum

(2)Illumina平台测序分析策略

首先,基于Illumina测序平台,构建了插入片段500bp的Discovar文库和插入片段650bp的TALL文库(Tight and Long Library),两者均为PCR-free文库,测序深度分别为120×和135×,然后分别用Discovar算法和ABySS算法组装,最后得到的基因组大小分别为722Mb和702Mb(表1),而前者更接近近年来马铃薯基因组727Mb的组装结果。同时,这两种组装算法contig N50也分别达到了77Kb和75Kb,比之前报道的contig N50 22.4 Kb有了很大的提升。接着构建插入片段10000bp的大片段双端文库(mate-pair library)测序15×,来分别对上面两种文库组装结果进行scaffolding,用Soapdenovo2算法组装后,发现discovar-mp组装效果明显好于abyss-mp(表1),所以也将用前者进行下一步的研究。

(3)PacBio平台测序分析策略

基于PacBio RSII平台,构建插入片段大于20Kb的文库进行50×测序(65个SMRT Cell),然后分别使用HGAP算法、Canu算法、Falcon算法进行组装,得到的组装结果均优于Illumina测序scaffolding组装前的效果,这种测序方法的读长长,获得的长片段序列数目更多,而总的contig数量减少,更有利于基因组的组装。其中,Falcon组装效果是最好的,所以也将用这个方法去进行更深入的研究。 


表1.Illumina短读长和PacBio长读长初步组装结果 


02

Hi-C、Bionano、10X Genomics比较

通过之前对Illumina两种短片段文库和PacBio长片段文库不同组装方法的研究,作者分别选择了两种测序技术中初步组装最优的策略即discovar-mp (Illumina)和falcon(PacBio)进行下一步实验。

(1)Hi-C与Bionano辅助组装

首先,分别结合105×的Hi-C数据辅助组装,discovar-mp策略的contig N50从858Kb提升到了4713Kb,而falcon策略的contig N50从712Kb提升到2553Kb,效果都是非常明显的。Hi-C技术完成后,两种策略的步骤进一步深入,我们暂且称为discovar-mp-dt和falcon-dt。

其次,采用光学图谱技术,利用350× Bionano数据,discovar-mp策略的contig N50从858Kb提升到了1260Kb,将falcon策略的contig N50从712Kb提升到了1500Kb,也都有较显著的提升。这步组装完成我们分别称为discovar-mp-bn和falcon-bn。

(2)辅助组装结果比较

作者还利用10× Genomics测序技术重新建库(supernova)测序92×数据,用SUPERNOVA算法组装得到了基因组大小为641Mb,scaffold N50为2.33Mb。最后将discovar-mp策略、falcon策略、supernova策略分别去结合Hi-C技术和Bionano技术进行组装,再进行比较。比较结果显示discovar-mp-dt-bn组装策略得到的scaffold N50最高,达到7.0Mb,falcon-dt-bn策略得到的scaffold N50只有3.09Mb,而supernova-bn策略得到的scaffold N50最低,只有2.85Mb,所以组装上最优的策略就是discovar-mp-dt-bn。 


图1.不同策略组合组装效果 


03

不同策略组装质量评估 

(1)完整性评估

在组装完整性方面,通过BUSCO评估分析,发现discovar-mp-dt-bn, falcon-dt-bn, supernova-bn 三种策略组装的基因组完整性都在95%以上(图2),其中discovar-mp-dt-bn策略完整性最高, 其次是falcon-dt-bn, 最低是supernova-bn。 


图2.三种组装策略BUSCO评估 


(2)准确性评估

在基因组组装的准确性方面,discovar-mp-dt-bn、falcon-dt-bn和supernova-bn策略分别高达99.97%、99.87%和99.40%。其中discovar-mp-dt-bn组装的准确性也是最高的。

(3)共线性评估

在基因组共线性方面,falcon-dt-bn组装结果与土豆栽培种有最高的共线性,而discovar-mp-dt-bn策略的共线性最低(图3)。 


图3.三种策略组装结果共线性分析 


综上所述,discovar-mp-dt-bn组装的结果和质量是最好的,策略也是非常具有参考价值。

高质量的基因组序列是研究任何生物生命科学的基础,怎样去获得一个物种完整和正确的基因组序列一直是科研工作者们研究的热点,因此,关于物种基因组组装的研究也是生命科学中至关重要的基石。虽然这篇文章得到了一个最好组装策略,但这是否就是绝大部分物种基因组组装的“万能卡”呢?我想这个问题没人能回答得了,而我们需要做更多的工作去实践和验证,我相信最终我们会找到一个适合自己的最佳“万能卡”。 


参考文献:

1. Pirita P, George K, Elena LG, et al. A critical comparison of technologies for a plant genome sequencing project. (2018) GIGA SCIENCE, 1-11 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多