分享

10倍提升文献处理速度!华盛顿大学团队利用GPT-4,通过算法模型合理预测工程化酵母产量

 生辉 2023-10-31 发布于甘肃

基于合成生物学的生物制造技术能够以灵活、多变的方式创造出此前未有的新颖造物。但由于生物系统的复杂性,研究人员不得不依靠反复试验的方式以培养和筛选性能优越的工程化微生物。为减少实验次数并提高菌株的开发效率,科学家试图使用算法模型从而预测产能。 

然而,算法模型必须预先“学习”大量数据才能实行计算。其“学习”的数据越多,计算结果越准确。因此,如何快速筛选并汇总已有数据是所有工作的前提。

日前,来自华盛顿大学的一组多学科研究团队使用自然语言处理(NLP)工具,加速有关合成生物学数据的挖掘工作。相关研究论文已发表于 ACS Synthetic Biology 期刊。

论文中,研究团队使用 GPT-4 从涉及到两种酵母(Yarrowia lipolytica 和 Rhodosporidium toruloides,以下简称 Y. lipolytica 和 R. toruloides)的 176 篇出版物中提取并汇总信息。

在 GPT-4 的帮助下,搜索和整理相同数量文献所需的工作时长从原有的 400 小时缩短至 40 小时。并且,基于 NLP 工具汇总而成的结构化数据集和特征选择,经过训练的机器学习模型能够更准确的预测工程化酵母的发酵产量。


(来源:ACS Synthetic Biology

GPT 加速数据挖掘,百篇文献耗时 40 小时

自然语言处理(NLP)是人工智能领域的一个分支,其可以用于大规模的文本和数据处理。总体而言,该类工具包含自然语言理解和自然语言生成两个部分的功能。也就是说,其既可以理解已有的自然语言文本,又可以使用自然语言文本来表达研究者指定的意图。

今年年初,美国人工智能研究实验室 OpenAI 发布了 GPT-4 语言模型。基于该工具,研究者可以从已发表的论文中快速提取相关的生物过程特征和结果,从而实现数据库的快速增长并用于机器学习(ML)。


▲图丨使用 GPT-4 进行信息挖掘并应用于 AI(来源:ACS Synthetic Biology

本次研究中,研究团队使用 GPT-4 从有关工业用生产酵母 Y. lipolytica 的文章中提取信息,并以人工方式将这些信息转化为数据样本(即实例)。也就是说,每个实例都是一条实验数据,其将输出(产品产量)和输入(即实验特征)关联起来。而特征变量又包括生物工艺条件、代谢途径和基因工程方法等大量信息。对此,实现数据快速提取并且不遗漏信息将是评价 GPT-4 工作的重要指标。

在此之前,研究团队曾手动从约 100 篇有关 Y. lipolytica 的论文中收集信息,这些工作需要一位经过良好培训的研究生工作超过 400 个小时。而在使用 GPT-4 后,其在 40 个小时内就从 115 篇相关论文中获得了约 1,670 个额外的数据实例。

为了进一步测试 GPT 的适用性,团队通过计算特征重要性、特征方差和主成分分析(PCA)将手动提取数据与 GPT 提取数据进行比较。结果表明,GPT 提取数据的特征重要性分布与手动提取数据相似,这说明 GPT 提取数据所遵循的模式与手动提取类似。

不过,GPT 数据集中有 19 个特征的特征方差高于手动提取的数据集。研究者指出,这是由于 GPT 在分类数据时不仅考虑了碳源和辅因子成本,还根据培养条件和基因工程特征等进行聚类。也就是说,GPT-4 可以捕获论文中更独特的特征,并通过复杂的上下文数据进行推理,从而生成偏差较小的生物制造实例。


▲图丨手动与 GPT 提取数据的 PCA 比较(来源:ACS Synthetic Biology

在此之后,基于 GPT 捕获的数据,研究团队建立起相关数据库并用于训练 ML 模型,用于预测 Y. lipolytica 的发酵产量。与已经发表但未输入至数据库的 Y. lipolytica 产量数据对比,使用随机森林(RF)模型预测结果与实际产量的相关系数(R2)为 0.86,在所有被测算法模型中最优。

利用迁移学习揭示遗传工程的潜在影响

近年以来,新型酵母 R. toruloides 因其高脂肪含量和高天然胡萝卜素产量而备受关注。然而,关于该酵母的文献十分稀缺,并不足以建立起单独可用的数据库。

为了解决这一问题,研究团队采用迁移学习(Transfer Learning,TL)技术以建立适用于 R. toruloides 的算法模型。迁移学习方法的初衷是为节省人工标注样本的时间,让模型可以通过已有的标记数据(source domain data)向未标记数据(target domain data)迁移,从而训练出适用于新目标的模型。

结合本次研究来看,借助迁移学习技术,研究者得以利用 Y. lipolytica 数据集(已有信息)来揭示遗传工程对于发酵产量的潜在影响。

具体而言,研究团队从 60 篇 R. toruloides 相关文章中提取到 366 个发酵数据,这些酵母经过改造被用于生产虾青素。然而,一方面是相关论文中普遍缺乏遗传工程信息;另一方面,数据库中 Y. lipolytica 和 R. toruloides 的发酵产量大多数在克/升级别,而 R. toruloides 的虾青素产量则为毫克/升级别,来自数量级方面的差异加大了对于低产量产品预测的困难。也因此,其验证性产量预测相关系数仅高于 0.4,结果并不准确。

此时,从 Y. lipolytica 数据库中传递相关信息就十分必要。研究团队采用了两种归纳学习方法:一种是具有预训练编码器-解码器结构的神经网络,用于研究基因表达数量对虾青素合成的影响;另一种则是基于实例的 TL 方法,以解决源-目标领域差距。


▲图丨使用 TL 预测 R. toruloides 中虾青素产量(来源:ACS Synthetic Biology

在新的模型中,训练实例被标记为 Y. lipolytica 或 R. toruloides,且后者数据被分配了 3 倍权重。基于上述两种物种的数据,新的模型预测,经过工艺优化的野生型 R. toruloides 虾青素产量应该不高于 4.2 毫克/升。该结果与最近发表的一篇论文结果水平相当,在该论文中,摇瓶中的 R. toruloides 虾青素产量为 1.3 毫克/升。

在此之后,算法模型进一步预测,通过基因表达有助于提升工程化酵母的虾青素产量。如果六个关键基因得以优化,其平均产量可能达到 39.5 毫克/升。值得注意的是,该预测结果仍然存在相当大的不确定性。该团队强调,采用实例迁移方法的 RF 模型可以在数据库不完整时提供合理预测。

总体而言,本次研究旨在利用 GPT,实现自动化的文献信息和数据挖掘,从而支持机器学习在合成生物学领域中的应用。在此过程中,研究者可以利用 GPT-4 处理大量信息,以减少在文献分析上花费时间。这些经验将有助于改善现有的数据处理流程并推动工程实践,从而促进 GPT 和机器学习在合成生物学领域中的进一步应用。

免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多