分享

Science丨预测精度达86.7%以上,赵惠民团队首次使用对比学习算法预测酶功能,算法工具已在线开放使用

 生辉 2023-04-03 发布于甘肃

近年来,随着测序技术和宏基因组学的迅猛发展,人们从各类生物体中发现并且汇总了大量蛋白质序列。根据这些已知的蛋白质序列数据,相关领域工作者编写了当前世界上最大的蛋白质数据库 Universal Protein(简称“UniProt”),这其中包含了大约 1.9 亿个蛋白质序列及部分生物功能信息。

然而,并非所有在库的蛋白质均具有正确的功能信息。目前仅有不到 19.4% 的蛋白质功能获得了明确的实验证据支持,另有一部分蛋白质的功能信息是依靠计算工具预测而来,而这一部分蛋白质中约有 40% 的信息有误,这就对其后续应用形成了严重阻碍。

3 月 30 日,来自美国伊利诺伊大学厄巴纳香槟分校的赵惠民课题组于 Science 期刊发表了最新论文 Enzyme function prediction using contrastive learning。在该研究中,赵惠民团队开发了一种名为 CLEAN(Contrastive Learning enabled Enzyme Annotation,即“启用对比学习的酶注释”)的机器学习算法,其能够对未经研究的酶类实现准确、可靠且高灵敏度的酶功能预测。目前,该算法工具已在线开放使用。

(来源:Science

“就像 ChatGPT 使用书面语言来创建预测文本一样,我们正在利用蛋白质的语言来预测它们的活动,”论文的通讯作者、伊利诺伊大学香槟分校的化学和生物分子工程教授赵惠民介绍道,“几乎每个研究人员在研究新的蛋白质序列时,都会想要立即知道该蛋白质的作用。除此之外,该工具还能够帮助各个制造业的研究人员快速找到用于合成化学品和材料的酶工具。”

首次采用对比学习框架,替代传统的局部比对法

蛋白质的功能注释主要是指通过对蛋白质序列、结构进行分析,从而确定蛋白质的生物功能。众所周知,自然界中的蛋白质种类十分庞大,研究人员很难依靠实验手段获取全部的蛋白质功能信息。为了解决这一困境,相关科学家已经推出了各类不同的机器学习算法,希望通过 AI 技术快速填补该领域的信息空白。

当前,基于序列相似性的蛋白质局部比对搜索工具(BLASTp)是使用最为广泛的工具。该类工具主要是将新的蛋白质序列与蛋白质数据库中的已知序列进行对比,然后根据序列的相似度来预测功能。

对于酶类而言,根据其系统分类法,每种酶类都有其专属的酶学委员会(Enzyme Commission,EC)编号。该编号由 4 个用圆点隔开的数字组成,依次表示了酶的大类、亚类、亚-亚类和序列号。有了这串编号,研究者就能够知道酶的基本功能,既清晰又准确。

显而易见,这种编号规则能够快速被转化为相应的算法模型,因为其中任意一个数字就像是一张“标签”。在此基础之上,机器学习算法就可以将 EC 编号预测任务转化成为多标签分类问题。然而,这种单一的分类模型易受到训练数据集规模的限制,并且其预测结果对于序列相似度较低、具有多重功能的酶类而言并不理想。

为了解决上述问题,新的 CLEAN 算法首次采用了对比学习框架。该算法将已知酶类的四位编码视为一个向量或矩阵,然后使用欧氏距离(Euclidean distance)来表示不同酶之间的功能相似性。也就是说,EC 编号相同或相近的不同蛋白质序列之间的欧氏距离较小,EC 编号差异越大,两种蛋白质序列的欧氏距离和功能差异也越大。

点击输入图片描述(最多30字)

▲图丨基于对比学习框架的 CLEAN 算法示意图(来源:Science

基于 UniProt 中已有的高质量数据,研究团队对 CLEAN 开展了训练,并且使用对比损失(contrastive loss)函数来优化模型。在训练过程中,数据集中的每个参考序列(anchor)都有一个相同 EC 编号(正)的序列和一个不同 EC 编号(负)的序列。而对比损失函数则会将参考序列和正序列之间的距离最小化、与负序列之间的距离最大化,然后计算待测序列与 EC 编号聚类中心之间的成对距离。其中,与待测序列显著接近的 EC 值即为计算结果。

针对难解酶类的功能预测精度达到 86.7% 以上

在此之后,为了验证 CLEAN 的准确性和稳健性,研究团队进行了大量实验。其中包括使用 CLEAN 为所有未表征的卤化酶(总共 36 个)注释 EC 编号,然后进行外部实验验证。

“针对于卤化酶的功能注释具有较大挑战性,”研究团队对此介绍道,“其原因在于卤化酶家族尚未得到充分研究,并且数据库中功能已知的卤化酶数量也十分有限。”

预测结果表明,CLEAN 在卤化酶功能预测任务中其预测精度达到了 86.7% 至 100%,显著优于其它计算工具。在预测后相关专家通过开展外部实验,充分证实并完成了 36 种卤化酶的 EC 编号保密注释。这些结果表明,CLEAN 算法能够以更高质量注释未被充分研究的酶、纠正错误标记的酶,并且识别具有两个或更多 EC 编号的多功能酶。

点击输入图片描述(最多30字)

▲图丨针对未表征卤化酶的实验验证(来源:Science

“我们不是第一个使用人工智能工具来预测酶功能的团队,但我们是首个开发了对比学习算法来预测酶功能的团队。结果证实,这种算法比其它人工智能工具效果更好,”赵惠民进一步介绍道,“虽然我们不能保证所有蛋白质都会被正确预测,但是与当前其它的工具相比,CLEAN 算法确实具备更高的预测准确率。”

目前,相关领域的研究者已经可以在线公开使用 CLEAN。“我们希望这个工具能被广大研究界广泛使用,”赵惠民表示,“就像搜索引擎一样,研究人员只需在搜索框中输入序列就可以获得相应的结果。”

点击输入图片描述(最多30字)

(来源:[2] )

对于接下来的工作目标,赵惠民表示其团队计划进一步拓展 CLEAN 背后的 AI 工具,以便针对受体、转录因子等非酶蛋白质进行功能预测,进而预测自然界中所有蛋白质的功能。“此外,我们还将尝试预测酶的其它功能,例如稳定性、底物专一性与选择性。另一方面,我们还将结合 CLEAN 与 AlphaFold,从而提升对所有蛋白质功能的预测准确度。”

总体而言,CLEAN 能够在更高精度上提供可靠的酶功能信息预测,该工具或将极大地促进功能基因组学、酶学、酶工程、合成生物学等领域的研究以及产业化进程。

免责声明:本文旨在传递生物医药最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多