【原】OntoProtein：一种将基因本体知识图谱纳入蛋白质预训练的通用框架

DrugAI 2023-03-03 发布于韩国

展开全文

今天我们介绍浙江大学的张宁豫教授团队发表在ICLR2022的工作，文章提出了OntoProtein，一种将基因本体知识图谱纳入蛋白质预训练的通用框架。研究人员构建了一个新的大规模知识图谱，其中包含GO及其相关蛋白质，以及描述所有图中节点的基因注释文本或蛋白质序列。并且提出了新的知识感知负采样对比学习，以在预训练期间共同优化知识图谱和蛋白质嵌入。实验结果表明，OntoProtein可以在TAPE基准测试中超越最先进的预训练蛋白质语言模型，并且与蛋白质-蛋白质相互作用和蛋白质功能预测的基线相比，具有更好的性能。

背景介绍

蛋白质科学，它是控制生物学和生命本身的基本大分子，已经在理解疾病治疗和人类健康方面取得了显著进展。由于计算能力的不断增强，当前使用数百万种不同序列预训练的蛋白质语言模型可以将参数规模从百万级提升到十亿级，并取得显着改进。然而，这些流行的方法很少考虑将知识图谱（KG）纳入其中，知识图谱可以为更好的蛋白质表示提供丰富的结构化知识事实。为了解决这个问题，本文提出了一种新的预训练模型OntoProtein，它将知识图谱嵌入到蛋白质语言模型中，以提高蛋白质表示的准确性。OntoProtein使用基于BERT的自注意力编码器，并将知识图谱嵌入到蛋白质语言模型中，以提高蛋白质表示的准确性。为了更好地嵌入知识图谱，本文提出了一种新的负采样方法，它可以有效地构建负样本，从而提高模型的准确性。此外，本文还提出了一种新的知识嵌入（KE）目标，以获得预训练过程中的表示。最后，本文还提出了三个基于蛋白质的下游任务，以评估OntoProtein的性能。

本文创新和贡献：

提出了一种将知识图谱（KGs）与蛋白质预训练模型相结合的框架OntoProtein。
构建了一个由GO和相关蛋白质组成的新型大规模知识图谱。
提出了一种知识感知负采样的对比学习，以在预训练期间共同优化知识图谱和蛋白质嵌入。

方法介绍

使用BERT编码器对蛋白质序列进行编码；

首先使用ProtBert，它使用BERT架构和UniRef100数据集进行预训练。与Devlin等人（2019）的BERT相比，ProtBert将氨基酸序列编码为令牌级或句子级表示，可用于下游蛋白质任务，如接触预测任务。编码器接受蛋白质序列，并将其转换为蛋白质语言模型。

使用知识嵌入目标来获得预训练过程中的表示；

本文使用基于嵌入的知识图谱（Knowledge Graph）来获得预训练过程中的表示。本文使用基因本体（Gene Ontology）作为知识图谱，并将其嵌入到蛋白质语言模型中。本文的方法可以有效地将基因本体知识注入到蛋白质预训练中，从而提高蛋白质语言模型的性能。

使用知识感知负采样策略来构建负样本

本文使用知识感知负采样策略来构建负样本。使用基因本体（Gene Ontology）作为知识图谱，并将其嵌入到蛋白质语言模型中。本文的方法使用知识感知负采样策略，以构建负样本，从而提高蛋白质语言模型的性能。并且使用基因本体知识来构建负样本，以更好地模拟蛋白质序列的真实分布。

使用多个下游任务来评估模型的性能

本文使用多个下游任务来评估模型的性能。使用蛋白质-蛋白质相互作用（PPI）、蛋白质功能预测（PFP）和接触预测（CP）三个任务来评估文章中的OntoProtein模型。并使用F1和ROC AUC作为评估指标，并与基线方法进行比较。此外还使用蛋白质序列长度和接触预测的准确率来评估模型的性能。

实验介绍

数据集：包括两个部分，预训练数据集和下游任务数据集。预训练数据集是文章中构建的ProteinKG25，它是一个大规模的知识图谱数据集，其中包含注释文本和蛋白质序列。下游任务数据集包括TAPE基准测试，蛋白质-蛋白质相互作用预测和蛋白质功能预测。具体的数据集构建过程和分析可以在附录A.1中找到。

实验过程：为了评估模型，文章使用了TAPE基准测试，蛋白质-蛋白质相互作用（PPI），蛋白质功能预测（PFP）和接触预测（CP）三个任务。并且使用F1和ROC AUC作为评估指标，并与基线方法进行比较。此外还使用蛋白质序列长度和接触预测的准确率来评估模型的性能。以及对模型的性能进行了详细的实验分析，以探索不同序列的性能。

实验结果：OntoProtein可以在TAPE基准测试中超越最先进的方法，并且与蛋白质-蛋白质相互作用和蛋白质功能预测的基线相比，其性能更好。在蛋白质功能预测任务中，本文在转导设置中获得了2％的改进，在归纳设置中获得了2％的改进，进一步证明了本文提出的方法的有效性。

总结

本文提出了OntoProtein，一种将Gene Ontology知识注入蛋白质预训练的框架。文章中构建了一个新的预训练数据集ProteinKG25，它是一个大规模的KG数据集，其中GO术语和蛋白质实体分别具有对齐的描述和蛋白质序列。本文评估了OntoProtein在蛋白质功能预测，蛋白质-蛋白质相互作用和TAPE基准测试中的表现。实验结果表明，OntoProtein可以在所有任务中优于现有方法。

参考资料

论文链接：[2201.11147] OntoProtein: Protein Pretraining With Gene Ontology Embedding (arxiv.org)

代码链接：GitHub - zjunlp/OntoProtein: Code and datasets for the ICLR2022 paper "OntoProtein: Protein Pretraining With Gene Ontology Embedding"