读云(read clouds)组装高质量末培养的微生物基因序列High-quality genome sequences of uncultured microbes by assembly of read clouds Nature Biotechnology, [35.724] 链接: http://dx./10.1038/nbt.4266 第一作者:Alex Bishara 通讯作者:Serafim Batzoglou, Ami S Bhatt 主要单位:加州,斯坦福大学,计算机系,医学与遗传学系 其它作者:Eli L Moss, Mikhail Kolmogorov, Alma E Parada, Ziming Weng, Arend Sidow, Anne E Dekas PDF:https://www./articles/nbt.4266.pdf 热心肠日报导读Nature子刊:新技术“读云”可获得高质量宏基因组序列 新技术“读云”可获得不可培养微生物的高质量基因组序列 ① 读云(read clouds)技术建库分为两步,先将宏基因组封装在大量含有一条或多条长DNA序列的微液滴中,再从这些子集构建带条码的短序列文库测序; ② 配套的“雅典娜(Athena)”组装算法则先结合条码对子集进行组装,然后在子集之上组装得到宏基因组序列; ③ 通过对人粪便样本和海洋沉积物样本测序,评估了读云技术相较于长读长三代测序和短读长二代测序策略的优势; ④ 发现读云在低丰度物种发现、宏基因组分箱、基因组完整性等各项指标上均明显占优。 主编评语:“读云”的核心是采用了微液滴封装技术降低了宏基因组复杂性,之后再结合现有方法测序和新算法组装。这相当于对宏基因组展开了一场“降维攻击”。 关键字:宏基因组,新一代测序技术,宏基因组算法,微液滴封装 摘 要尽量宏基因组测序微生物组样本可以部分重建群体菌株水平结果,但仅获得分离难培养微生物的高质量基因组草图。 这里,我们呈现了一个“读云(read clouds”新方法,对微生物样本短序列标签化结合长序列来源的信息。 我们开发Athena组装软件,可以使用读云方式的标签化序列从头组装,以改进宏基因组组装。 使用此方法应用于两个健康人粪便样本,与现有的短读长和合成长读长的宏基因组测序技术比较,即使细菌丰度小于20X下,读云方法宏基因组测序和Athena组装结果有最好的基因组草图(N50> 200kb,小于10个重叠群)。 我们也测序复杂的海洋沉积物,产生24个中等质量的基因组草图(完整度 > 70%,污染率 < 10%),其中9个达到完整的水平(完整度=""> 90%,污染率 <> 本方法可基于单个样本的宏基因组测序,无须微生物分离培养,即可获得高质量的微生物基因组草图。 图1. 读云鸟枪测序和组装方法技术路线(a) 微生物组样本DNA提取,片段选择富集长片段。将长片段稀释,松散的分隔在上百万个小液滴中。变性扩增这些长片段,获得有标签的短序列文库,每个空间的标签是唯一的。然后文库混合并使用Illumina测序。 (b) 雅典娜组装工具使用读云产生更全面的草稿,如基因组重复可以正确放置。图中显示为正确识别重复序列的例子。 图2.两位健康人个体粪便的微生物属水平组成(a,b) 三种建库方式下短序列分类属水平的相对丰度P1(a)和P2(b)。结果可见三种见库方式下属水平结果相当一致。样品P1多样性比P2更高。 (c,d) P1、2样品拼接基因组草图的完整度和连续性N50。读云方法最好。结果只展示每个属中最完整的分箱。单拷贝基因预测采用chechm预测和评估。不完整(图中X,<90%)、完整(图中圆,>90%完整,<> 图3.三种方法获得基因组草图评估。读云稳定获得完整和高质量基因组草图,远优于其它方法,即使在50X以下低丰度计算完整和高质量的基因组数量也表现优异。 完整分箱的数量在不同最小N50(a) 、最小读段覆盖度(b相对于低丰度物种)和最小覆盖度且N50大于200 kb(c)条件下。 高质量的分箱(完整基础上,且至少18个tRNAs,至少一个5S, 16S, 23S)的数量与N50,最小覆盖度和N50>200kb时最小覆盖度; 图4.三种方法基因组Bin的完整度基于读云、合成长读长(SLR)和短读长三种方法,对健康人类粪便样本进行测序和组装,进一步分箱结果的完整性比较。读云(金色)与SLR和短读长(会将一个完整的基因组分为2个或更多的分箱)相比,产生更全面、高质量的物种基因组草图。图中少在两种方法中发现,且在一种方法中完整的Bin。 (a) 三种方法不同物种数量下分箱的数量,读云获得最多单个物种的分箱; (b) 三种方法完整、高质量分箱的数量;读云产生最多的完整和高质量的分箱; (c) 三种方法下Bin物种注释和对应的混合物种数量。颜色代表方法,形状代表完整度。几乎所有的物种获得高质量的基因组草图,仅有单个分箱属于这些物种。如大肠杆菌、梭菌等包括一些小的不完整的分箱; (d) 每类物种最大分箱中包括的基因数量。读云产生的分箱在绝大多数物种中包括最多数量的基因。SLR方法在B. uniformis中基因最多,但存在15%的污染。 图5. Bin基因组与参考基因组比较与参考基因组比较三种分箱方法的结果。Dot-plot展示最近参考基因组(X轴)与雅典娜组装分箱(Y轴)的共线性和完整性。每种颜色代表一条contigs。可以在图中观察到大片段的倒位;同时另两种方法的结果在读云结果中覆盖情况,在其它Bin中的contigs用浅黄色表示。 图6. 海洋沉积物读云测序下短读长组装与雅典娜组装的基因组草图比较可见雅典娜组装(黄色),比短读长组装(蓝色)获得更多的高质量和中等质量的分析。 (a) 完整度 > 70%,污染率 <> (b) 包含16S序列的中等质量分箱 (c) 有16S序列的高质量基因组草图 90%)、完整(图中圆,> |
|