——背景—— 蛋白质科学是一门交叉融合的学科,通过实验方法(如蛋白质组学)和计算方法(如分子建模、机器学习、数据科学)的结合,研究成果被广泛应用于生物医学和生物技术。蛋白质的功能特性对于开发新的有效的生物医学策略和生物技术产品至关重要。截至2021年5月,UniProt蛋白序列和注释知识库中约有2.15亿个蛋白质条目;然而,其中只有56万份(~0.26%)是被专家手动审阅和注释,这表明目前的测序(数据生产)和注释(标签)能力之间存在巨大差距。在这种背景下,许多研究小组一直致力于开发新的计算方法来预测蛋白质的酶活性、生物物理性质、蛋白质和配体的相互作用、三维结构等性质,以期最终预测它们的功能。2022年3月21日,来自土耳其的Tunca Doğan课题组全面地整理了2015年以来提出的蛋白质表示方法,并通过详细的基准分析来衡量这些方法在捕获蛋白质功能特性方面的潜力。该工作发表在Nature Machine Intelligence,题为“Learning functional properties of proteins with language models”。 ——方法—— 为了准确评估这些方法在捕获蛋白质各种功能信息方面的能力,作者在四种任务上对这些方法进行了比较(图1): (1)蛋白质语义相似性推断; (2)基于GO(Gene ontology)的蛋白质功能预测; (3)药物靶点蛋白家族分类; 作者比较的方法包括Learned-Vec, SeqVec, Mut2Vec, Gene2Vec, TCGA_EMBEDDING, ProtVec, TAPE-BERT-PFAM, MSATransformer, CPCProt, ProtBERT-BFD, UniRep, ESM-1b, ProtALBERT, ProtXLNet, ProtT5-XL, 以及传统的表示方法BLAST, HMMER, PFAM, AAC, APAAC, K-Sep, InterPro2GO, UniRule2GO, Ensembl-Orthology。事实上,蛋白表示方法可以总体上分为两类,一类是学习蛋白层面的特征,一类是学习残基层面的特征,本文所比较的方法,主要是关注蛋白层面的特征。 ——结果—— 蛋白质语义相似性推断,指的是将算法所构造的蛋白矢量之间的相似性,与蛋白GO功能注释的相似性进行比较,旨在评价算法捕获蛋白功能相似性的能力。在蛋白质语义推测任务上,对于不同类型的GO注释,算法的表现有所不同,在分子功能(MF)这一特征上ProtT5-XL方法表现最好,而在生物学过程(BP)这一特征上则是Mut2Vec表现最好。 在基于GO的蛋白质功能预测任务上,表现出色的方法效果高度一致,例如ProtT5-XL等方法。并且总体来看,通过机器学习的蛋白质表示方法比经典的统计表示方法效果更好。 在药物靶点蛋白家族分类任务上,ProtT5-XL和ProtALBERT在所有数据集上表现最好。PFAM, ESM-1b和SeqVec模型也具有较好的预测效果。当使用不同的序列相似性阈值去构造数据集时,随着训练集和测试集序列相似性的降低,性能有总体的下降趋势;有趣的是,这种下降在经典表征方法中比经过学习的表征方法更明显。 在蛋白质结合亲和力预测任务中, ProtALBERT在多个指标上都取得了最好的效果。 ——总结与讨论—— 根据比较结果,作者提出了几点结论:(1)在蛋白质功能预测方面,基于学习的表示方法,总体上比基于统计的经典方法表现更好;(2)模型框架的设计和训练数据的类型/来源,都是蛋白质表示方法需要考虑的关键因素;(3)对于基于学习的表示方法,需要小心训练集与测试集的数据“泄露”与重合。 总而言之,基于人工智能的蛋白质信息学研究正在不断增加,以进一步了解序列、结构和功能之间的复杂关系。在本研究中,作者评估了蛋白质表征学习方法的能力,以捕获蛋白质的功能特性,这些模型具有较高的表示能力和适度的资源需求,可以用于各种任务。因此,作者认为在不久的将来,学习蛋白功能特性的表征方法将在蛋白质研究和开发中发挥重要作用,甚至为设计全新的蛋白质提供思路。 参考文献: |
|