分享

43只牛瘤胃宏基因组测序,超800Gb数据组装得到913个细菌基因组草图

 萌小芊 2018-03-01

2月28日,来自英国爱丁堡大学的研究人员在Nature Communications杂志在线发文使用宏基因组binning 和基于Hi-C的proximity-guided组装,从43只苏格兰牛的超过800 Gb的牛瘤胃的宏基因组测序数据中组装得到913个细菌和古细菌的基因组草图,


这些数据集大大提高了公共数据库中瘤胃微生物基因组的覆盖范围,也是生物质降解酶和瘤胃微生物群研究的宝贵资源。


点击文末的“阅读原文”查看论文全文


瘤胃作为牛的消化器官,能将植物材料分解为能量,而这主要由瘤胃中的微生物系统所编码的酶完成。该研究得到的基因组中,大多数都是先前未被测序的菌株或菌种。基因组草图中预计有超过69,000种蛋白质参与碳水化合物的代谢,其中90%以上在公共数据库中尚未有很好的匹配。



Fig1:在图中可见几个大分支。该树由代表梭菌属和类杆菌属的两个大簇代表,其中后者的一个重要簇代表Prevotellaceae。较小的进化枝代表变形杆菌,古细菌,放线菌,螺旋体和纤维杆菌。其余节点和分支代表杂菌。



首先,利用Illumina HiSeq 4000测序,从42个从苏格兰牛的瘤胃微生物群中产生了768Gb数据,分别对每个样品和所有样品进行宏基因组组装,创建了一组去重的putative genome bins ,完整度≥80%,估计污染度≤10% 。分析得到850个MAG,在Supplementary Data1 中可以看到850个MAG的分布。


然后,又对第43个样品进行测序,使用ProxiMeta Hi-C技术将 assembled contigs 聚类为基因组。Hi-C分析产生了另外63个基因组草图(完整性≥80%,污染率≤10%)。注:Bowers等人2017年发表在Nat Biotechnol上的研究将高质量MAG定义为完整性> 90%,污染<5%。而这项研究得到的基因组中有491个符合这些标准; 另外,有215个基因组的完整性=""> 95%,污染<5%;30个基因组的完整性> 97%完整性,0污染。


在下文中,这两次得到的基因组分别被称为RUG(Rumen Uncultured Genomes)和hRUG(Hi-C Rumen Uncultured Genomes)。


Fig3: Distribution of the maximum percentage identity of the RUG proteins against five public databases for six classes of carbohydrate-active enzymes. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding


其中,7个RUG能对应到种。 RUG346是地衣芽孢杆菌的菌株,RUG287是Kandleria vitulina的菌株,RUG405是发酵氨基酸球菌的菌株,RUG618是Megasphaera菌株的菌株。 (与菌株DJF_B143最相似),RUG133是一种双歧杆菌(Bifidobacterium merycicum)菌株,RUG664是一种马链球菌(Streptococcus equinus)菌株。其余的906个RUG中,至少有158个可以对应到属,至少416个到科,841个到目,845个到纲,895个到门,906个到界。 28个RUG代表古菌,补充数据6显示了597个公共古菌基因组的情况。


在可解析到门水平的RUG中,厚壁菌占优势(50%),其次是拟杆菌(36%),放线菌(3.5%),变形菌(3.1%),广古菌(3.1%)和螺旋体(1%),代表在瘤胃中发现的最主要的微生物门。整个MAG和Hi-C基因组中门的分布非常相似。


碳水化合物活性酶数据库(CAZy database)定义了六类涉及碳水化合物代谢的酶。该研究中得到的913个RUG含有1,979,391个蛋白序列。使用dbCAN对这些数据在CAZy数据库中进行过滤。


预测结果是,总共69,678个序列具有至少一个碳水化合物活性功能,在这些蛋白质中,只有6061个(8.7%)在上述已有数据库中具有高度相似的匹配(≥95%的同一性),这表明研究者预测的碳水化合物活性蛋白质中的63,617个可以被认为是新的。


总的来说,算上具有多个结构域的蛋白质,RUG中共包含40,140个GH,19,722个糖基转移酶,1121个PL,9119个CE,154个具有AA的蛋白质和2545个CB蛋白质。这些酶在913个RUG中的分布可以在图2和补充数据中看到。


Fig4: Classification rate for three datasets against various Kraken databases. BFAP bacterial, archaeal, fungal and protozoan genomes from RefSeq, BGEB BFAP + 1003 GEBA genomes, BHIC BFAP + 63 hRUG genomes, BHUN BFAP + 410 genomes from the Hungate 1000 project, BRUG BFAP + 850 RUG MAGs, BRHI BFAP + all 913 genomes from this study, BRHH BFAP + 913 RUGs + 410 Hungate 1000 genomes. Addition of rumen-specific RUGs or Hungate 1000 genomes has the most dramatic effect


为了解RUG蛋白与公共数据库中蛋白的差异,我们绘制了每种CAZy酶类best hit 的氨基酸同一性百分比(图3)。平均而言,预测的GHs,GTs,PLs,CEs和CB蛋白在氨基酸水平上与目前公开可用的序列在65%至72%之间相同。 AA类更保守,中位氨基酸同一性约83%。


作者还研究了RUGs产生纤维素酶的能力(这是一种负责降解木质纤维素生物质的多酶复合物)、潜在的多糖利用位点(PUL)、对已有数据集的扩充等。



另外,如前所述,如前所述,Hi-C分析产生了63个基因组,完整度≥80%,污染度≤10%。研究者使用与MetaBAT2输入相同的程序集并进行了宏基因组binning。这导致76个基因组使用相同的cut-off值(补充数据17)。然而,我们假设Hi-C基因组可能含有更多不符合原始细胞基因组标准的遗传元件拷贝,例如,质粒经常以多个拷贝存在,并且通常具有不同的碱基组成核心基因组。由于像MetaBAT这样的算法同时使用碱基组成和覆盖范围,因此MAG通常缺少质粒。


为了寻找多拷贝质粒的存在,研究者从每类基因组(63个Hi-C基因组和76个SPAdes / MetaBAT基因组)中提取那些> 2×平均覆盖度的contigs ,得到来自Hi-C基因组的243个contigs 和来自SPAdes / MetaBAT基因组的37个contigs 。比对nt数据库发现,SPAdes / MetaBAT组中没有可以注释为’质粒’的contigs ,而Hi-C组中有10个 (来自10个不同的基因组)。


Fig2: Distribution of carbohydrate-active enzyme classes across the 913 RUGs. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding.



在这项研究中,我们了解到RefSeq database在帮助从瘤胃微生物群中读取分类上非常差,因而只有对瘤胃微生物进行测序,才能得到分类的改进。通过该研究以及Hungate 1000,瘤胃微生物分类率提高了5到7倍。该研究得到的913 MAGs将会改变我们对瘤胃宏基因组学数据的解读方式。


未来, Pacific Biosystems和Oxford Nanopore提供的新测序技术能够生成更长的reads,期待杂交短reads和长reads测序能够使宏基因组实现染色体水平的end-to-end 组装,彻底改变我们对复杂微生物组的理解。




/End.


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多