分享

BacterAI:微生物综合实验室自动化和机器学习平台

 菌心说 2023-06-08 发布于北京

由于培养的挑战和复杂性,许多微生物的研究仍然不足。一个名为BacterAI的综合实验室自动化和机器学习平台可能是未来的趋势。

测序技术的进步极大地扩展了我们识别和调查种类惊人且不断扩大的微生物世界的能力。新发现的物种可能是新型生物活性分子(如抗生素)的一个未开发的来源;然而,这种巨大的微生物多样性的潜力还没有被充分认识到。目前,所有微生物物种中只有不到2%是可以培养的。这是由于缺乏关于生长要求的知识,以及阻碍这种基本知识的繁琐、劳动密集型的实验所造成的。

实验室自动化和机器学习(ML)技术的整合可以帮助培养未经研究的细菌。这些方法已经被利用来提高实验的速度和产量。例如,基于菌落形态的人工智能(AI)指导的菌落选择被用来从微生物组样本中分离出不同的菌株,而生物燃料生产菌株的高效代谢工程已经通过自动推荐哪些启动子应该被操纵来实现。这些方法的一个缺点是,它们需要大量的数据集来训练预测模型。强化学习(RL)是数据饥渴型ML趋势的一个例外,这种ML技术不需要事先训练数据。强化学习模型通过试验和错误来学习:积极的结果会得到预定规则的“奖励”,这些规则是这些技术的输入。强化学习已经被用来玩和赢得国际象棋和围棋等游戏,但它也可以被用来解决微生物学中数据有限的问题。

图片

现在,Dama等人在《自然·微生物学》中描述了一个基于强化学习的平台,称为BacterAI,可以在没有先验知识的情况下学习细菌的生长要求。这个强大的强化学习管道与一个自动化的实验装置相结合,在两周的时间内研究细菌的生长要求。研究人员将培养基成分(如氨基酸)的清单输入一个计算机平台,该平台向实验室设备和人类技术人员提供液体处理指令。通过将培养基成分视为一种“游戏”,以最小化成分数量为目标,BacterAI的RL算法选择最具有信息量的实验来进行。在ML模型的引擎下,BacterAI的奖励是尽可能多地从仍然支持细菌生长的培养基中去除成分。当BacterAI玩“游戏”时,每天执行数百个探索性实验,其结果被用来反复训练一个基础神经网络。然后,该神经网络在给定的培养基成分下预测细菌的生长。在传统的ML方法中,数据收集和模型构建是由人类专家指导的孤立过程,而BacterAI将两者都自动化,并可以迭代,直到获得一个预测模型。

研究人员用BacterAI对两种细菌进行了测试:Streptococcus gordonii和一个与它密切相关的物种--Streptococcus sanguinis。两者都是口腔微生物区系的一部分,这是一个众所周知的难以培养的环境。在不到两周的时间里,BacterAI预测S. gordoniiS. sanguinis虽然密切相关,但各自需要不同的氨基酸组合来支持其生长(图1,第1阶段)。生成的模型准确率超过90%,这意味着它们预测培养基是支持生长的还是不支持生长的,大大优于随机抛掷硬币。

图片
图1. 把学习适当的培养条件当作一种游戏。BacterAI是一个自动化的液体处理和实验计划平台,可以在没有事先信息的情况下学习并报告细菌的生长规则。该平台分两个阶段运行:第一阶段(灰色)用RL方法自动收集迭代数据,类似于玩国际象棋等游戏的方法;第二阶段(蓝色)通过使用单独的算法向微生物学家提出逻辑生长规则,简化了数据解释。

生物学的机器学习工作经常受到“黑箱”神经网络的阻碍,这些神经网络难以理解,并且包含成千上万的参数,使它们无法被人类所解释。BacterAI的独特之处在于,在完成自动实验并收集到足够的数据后,它会自动生成人类可读的结果解释(图1,第2阶段)。BacterAI的输出是支持细菌生长所需的氨基酸、碳水化合物、维生素、矿物质和盐类的精确、最小组合的配方。可读输出的一个代价是准确性,因为只有少数成分的培养基在本质上将不如代表所有成分的非线性、分数组合的复杂神经网络准确。然而,BacterAI以其用户友好的优势弥补了这些缺点。

值得注意的是,BacterAI在执行微生物学实验方面提供了高度的自动化。虽然仍然需要一名技术人员上传前一天的最终生长测量结果,并对质量控制进行例行检查,但BacterAI会自动生成要进行的实验清单,产生液体处理计划,并收集和处理所有数据。很快,可能一个技术人员就能利用自动化功能监督同时运行的大量实验(例如,对数百种微生物物种)。在未来,作者还预见BacterAI将直接部署在化学复杂、物种丰富的环境中,如人类的肠道或土壤。

为了利用BacterAI的潜力,其他实验室将需要类似的实验室设置来使用开源的实验计划软件,这可能是一个成本和资源限制性的障碍。绕过这个缺点的一个方法是将BacterAI的综合平台部署到云实验室或虚拟工作台,在那里多个研究实验室可以参与并进行实验。

虽然BacterAI可以从一张白纸上学习,但先前的信息可以提高模型的性能和实验的速度。Dama等人证明了转移学习,或者说从BacterAI之前的一个相关任务中重复使用信息的过程,可以加快RL游戏的速度。例如,当用S. gordonii模型的最终参数对S. sanguinis模型进行编程时,只需要4天的实验就可以达到97.6%的模型精度,而获得最初的S. sanguinis模型则需要7天。随着基因组测序和代谢途径重建在过去十年中变得更具成本效益和更强大,未来的研究可以纳入更多的生物信息层,以构建更准确和具有背景意识的模型。

以最少的人力时间和劳动,BacterAI可以为未被研究的细菌提供有意义的生物学洞察力,促进进一步的科学研究。通过自动快速识别研究较少的细菌的适当培养条件,像BacterAI这样的平台可以将原本艰巨的研究问题变成轻松的胜利。

Dama, A.C., Kim, K.S., Leyva, D.M. et al. BacterAI maps microbial metabolism without prior knowledge. Nat Microbiol 8, 1018–1025 (2023). https:///10.1038/s41564-023-01376-0

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多