分享

三代测序专题一:纯PacBio组装策略的适用性

 凌恩生物 2022-04-22

老习惯:先写结论,不浪费大家时间

推荐CanuFALCONMECAT

PacBio拥有独特的单分子实时测序技术

SingleMolecule Real TimeSMRT

优点 |

  • 超长读长(平均10-18k

  • PCR过程,均一的覆盖度

 2016年以来各高分杂志陆续公布依靠PacBio技术获得的高质量基因组图谱,说明该技术已经成为基因组研究的标配。

 然而,其序列随机错误率较高(~15%),与NGS de Bruijn graph方法不同,纯PacBio序列组装使用OLC方法。

 简单来说,就是序列依靠Overlap关系进行拼接,类似各位使用DNAstar拼接Sanger数据的过程。

几乎所有单纯PacBio数据组装软件的OLC原理都分如下几步:

1,从Subfilter Reads中(对应NGS Clean Data)挑选非冗余的长序列;

2,以上述序列作为参考,与其余序列进行序列比对(类似重测序Mapping过程);

3,根据Mapping结果,修正随机测序错误,生成一致性序列;

4,检查overlap关系,连接一致性序列

如下图所示:

图片

PacBio应用案例:

图片

从以上结果来看,有如下结论:

(1)适用于各类物种

(2)Contig/Scaffold N50显著高于NGS技术

(3)组装软件比较集中(FalconPBcRcanuHGAP等)

各种软件的测试状态(Rank越小,组装质量越高):

图片

对于基因组1G以内的物种,结论如下——

 基因组 <25MABruijnCanuFALCON

 25M~750MCanuMECATFALCONHGAP3

 组装效果综合表现:CanuFALCON最佳

从运算资源消耗来看,MECATCanu优势明显:

图片

参考文献:doi: 10.1093/bib/bbx147

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多