分享

Science | 使用对比学习进行酶功能预测

 DrugAI 2023-04-09 发布于韩国

今天为大家介绍的是来自美国伊利诺伊大学厄巴纳香槟分校赵惠民团队发表在Science上的一篇酶功能预测的论文。这篇文章介绍了一种名为CLEAN(contrastive learning–enabled enzyme annotation) 的机器学习算法,该方法可以准确预测酶的功能(enzyme commission number, EC number)。相比于其他方法,CLEAN可以更准确、可靠地判断酶的EC号码。因为其强大的对比学习框架,CLEAN在(1)注释酶的功能,(2)纠正错误的酶的EC号码和(3)识别多功能酶上都有十分优秀的能力。

随着DNA测序技术的发展,大量的蛋白质序列已经被发现。例如,UniProt Knowledgebase已经编目了约1.9亿个蛋白质序列。然而,其中仅有不到0.3%(约50万个)的蛋白质经过人工审核,其中只有不到19.4%受到明确的实验证据支持。因此,蛋白质功能注释高度依赖于计算机注释方法。然而,大规模、基于社区的蛋白质功能注释(CAFA)研究发现,使用现有计算机工具自动注释的酶中约有40%的注释是错误的。因此,蛋白质的功能注释仍然是蛋白质科学中一个极具挑战性的问题。

CLEAN与以往的基于多分类的算法不同,它采用了对比学习。CLEAN的训练目标是学习一种基于欧几里得距离的酶的表示空间,距离的大小被用来反映酶功能是否具有相似性。具有相同EC编号的氨基酸序列在该表示空间中的距离较小,而具有不同EC编号的序列在该表示空间中的距离较大。通过这种方式,CLEAN可以对不同的酶进行区分,并对它们的EC号码进行准确的注释。对比学习过程如下图中A部分所示。在进行预测时,CLEAN首先计算出每个EC号的簇中心。这个簇中心是通过对所有训练集中属于该EC号的序列的学习嵌入进行平均得到的。然后,模型计算查询序列与所有EC号簇中心之间的距离。如果查询序列与某个EC号簇的中心距离非常接近,模型就会预测这个查询序列的EC号与该簇相同。这样就能够对输入的蛋白质进行准确的EC号注释。预测流程如下图的B部分所示。

基准测试

作者分别在New-392和Price-149这两个数据集上将模型在精确度(precision)、召回率(recall)和F1分数上,与其他方法(ProteInfer, DeepEC, BLASTp, DEEPre, CatFam, ECPred)进行对比。具体数值结果如下图A和B部分所示。与ProteInfer和DeepEC相比,CLEAN在多种多标签准确性指标(包括精确度和召回率)中表现最好,其中精确度达到0.597,召回率为0.481。此外,CLEAN获得了0.499的F1分数,而ProteInfer和DeepEC的分数分别为0.309和0.230。在Price-149数据集上,CLEAN的F1分数比ProteInfer高出3.0倍(0.166),比DeepEC高出近5.8倍(0.085)。对New-392和Price-149数据集的评估表明,CLEAN比以前开发的基于机器学习的模型更精确、更可靠,特别是对于那些没有已知酶功能的新发现蛋白质的功能预测。

除此之外,作者还基于EC编号在训练集中出现的次数来分析CLEAN的性能。即使在测试集和训练集的相似性较低的情形下,当训练样本数量稀缺时,CLEAN的性能也没有显著下降(下图D部分)。除此之外,作者重新组合和研究了New-392和Price-149,如下图E部分所示。正如预期的那样,ProteInfer和DeepEC对训练机中大量出现过的EC编号比较敏感,受到分类框架的限制。相比之下,CLEAN在预测未研究的功能方面表现最为优越(小样本情形),并且无论EC编号出现的次数如何,其准确性都很稳定。

作者在文章最后一部分还对一个卤化酶数据集(在UniProt数据库中鉴定出了36个未完全注释的卤化酶,涵盖了所有四种类型的卤化酶)进行了分析。经过专家审查和后续实验验证后,所有36个卤代酶都被注释了EC编号。总的来说,CLEAN相对于其他六种常用的计算工具(例如DeepEC的约11.1%和ProteInfer的11.1%至61.1%)获得了更好的预测精度(86.7%至100%;具体结果见上图F部分和下图A部分)。这些结果表明,CLEAN可以在相似的生物催化反应范围内区分酶功能。对于酶SsFIA,CLEAN能够自信地识别出其三种EC号码(EC 2.5.1.63, EC 2.5.1.94, and EC 3.13.1.8)证明了CLEAN识别多功能酶的能力。

结论

这篇文章介绍了一种名为CLEAN的机器学习算法,该方法可以准确预测酶的功能,相对于六种最先进的工具(即ProteInfer,BLASTp,DeepEC,DEEPre,COFACTOR和ECPred),CLEAN具有更优越的预测性能。对于卤化酶数据集的全面分析表明,CLEAN能够表征假设蛋白质并纠正错误标记的蛋白质。对于此数据集,大多数基于序列、结构和机器学习的注释工具都会预测错误或无法进行预测。识别酶的多样性对于改善现有酶的性能(例如具有三种功能的SsFlA)是至关重要的,CLEAN能够有效地实现这一目标。

参考资料

Yu, Tianhao, Haiyang Cui, Jianan Canal Li, Yunan Luo, Guangde Jiang, and Huimin Zhao. "Enzyme function prediction using contrastive learning." Science 379, no. 6639 (2023): 1358-1363.

代码

https://github.com/tttianhao/CLEAN

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多