分享

Nat. Mach. Intell. | 以语言学为灵感而构建的生物可靠蛋白质语言模型的路线图

 DrugAI 2023-05-15 发布于韩国

今天为大家介绍的是来自奥斯陆大学的一篇关于讨论蛋白质语言模型的综述性短文。基于深度神经网络的语言模型(LM)越来越多地应用于大规模蛋白质序列数据,以预测蛋白质功能。然而,由于目前的蛋白质LM方法主要是黑箱模型,难以解释,因此并未有助于从根本上理解序列-功能映射,这阻碍了基于规则的生物治疗药物开发。从语言学中汲取的指导可以帮助构建更易于解释的蛋白质LM,从而更有可能学到相关的领域特定规则。蛋白质序列数据与语言序列数据的差异要求在蛋白质LM中与自然语言LM相比,整合更多的领域特定知识。在这里,作者分析了一个基于语言学的蛋白质LM流程路线图,涉及训练数据、分词、词元嵌入、序列嵌入和模型解释。将语言学思想纳入蛋白质LM可以促进下一代可解释机器学习模型的发展,具有揭示序列-功能关系背后的生物学机制的潜力。

语言模型(LM) 已经成为处理指数级增长的无标签蛋白质序列的热门工具,具有捕获支持序列-结构-功能关系的生化和物理化学原理的潜力。为了利用这一潜力,蛋白质LM必须可验证地学到了数据背后的真实可推广的科学原理,而不是过度拟合某个特定的训练数据集。到目前为止,尚不清楚构建这样的蛋白质LM需要多少生物学知识(如结构信息和功能构件)。事实上,具有最少生物学先验知识的蛋白质LM在结构和功能预测任务上表现出色《模型介绍段》。然而并不能保证这些LM学到的模式是生物学解释性规则。在这篇综述中,作者研究了深度LM流程的多个方面:蛋白质LM中的预训练数据选择、分词、词元和序列嵌入以及可解释性方法(图1),并借鉴了自然语言LM的研究。作者旨在为未来的探索性研究方向铺平道路,从而系统地解决当前与LM相关的挑战。

图1 蛋白质序列的深度语言模型概述

预训练数据应反映下游任务的目标

预训练数据的选择对于模型的性能至关重要,因为它们为下游任务提供了基础知识。在预训练过程中,LM通过自监督在大规模序列数据中生成概率模型,蛋白质LM的语言是由包含在预训练数据中的蛋白质序列集合决定的,蛋白质LM的语言是由包含在预训练数据中的蛋白质序列集合决定的。尽管有一些研究分析了预训练数据选择对自然语言LM行为的影响,但对于蛋白质LM,大多数研究都对不同数据集的模型性能进行基准测试,而没有深入讨论。如果下游任务涉及到一般的蛋白质属性(例如二级结构、结构中的氨基酸接触和稳定性10),在所有可用的蛋白质序列上训练的一般蛋白质LM与单语自然语言LM类似。如果下游任务只与一小部分蛋白质有关(例如,抗体序列问题,如抗体亲和力成熟或表位预测),那么它们与多语言LMs更为相似。为了选择适当的预训练数据,以促进真正的科学理解,需要仔细考虑它是否包含可转移到下游任务的信息,需要进行更多的经验研究,以确定不同类型的预训练数据与随机生成的数据基线相比在各种微调任务中的可行性,以及更多可用的专门类型蛋白质的大数据集。

Tokenization的划分应该具有生物意义

找到近似于生物意义主题的token(类似于自然语言中具有语言意义的token)在蛋白质LM中建立具有生物通用规则的模型所不可或缺的。NLP中的标记化既为计算服务,也为理想的语言学目标服务。为了实现计算目标,词汇表必须是有限的,但又是详尽的。并且在给定的词汇量下,形成信息熵分布较低的LM,确保模型预测样本的能力。从语言学上讲,标记应该对应于携带意义的原子单元,而这些意义不能仅仅从字符中推断出来。目前蛋白质LM大多使用简单的标记法或者BPE为代表的标记法。简单的标记法产生的词汇表有限,而后者的表现也参差不齐。目前的蛋白质标记法对如何生成有意义的标记仍没有结论。

一个未被探索完全的方法是建立一个以生物领域知识为基础的基于规则的标记器(图2)。这种方法可能特别有利于对某些类型的蛋白质进行建模(这些蛋白质的序列数据不太丰富),类似于语言指导下的标记化如何为资源不足的语言带来更好的结果。目前还不知道这些类型的标记是否能满足计算标准;在自然语言中,熵水平已被证明对语言定义的标记相对较低,有意义的蛋白质标记可能产生类似的结果。另一种方法是借鉴现有的研究,发现具有功能和结构意义的、子域大小的标记。但许多定义的标记需要结构数据,不能大规模地应用于未标记的序列数据。第三种方法是根据蛋白质模拟中的大量定义标记来训练标记器;例如,高分辨率的模拟抗体可以提供关于相互作用和不相互作用的片段的信息,然后用来训练标记器。

总的来说,需要有一个生物学上合理的蛋白质标记的定义,可以作为比较各种标记化方法的基础真理。蛋白质包含的单元从组成上决定了它们的功能(至少在蛋白质域的范围内是这样的89),这与语言标记从组成上映射到句子意义的情况类似,这表明,如果有更多的数据和调查,分析性的语言标记化方法可能会应用到蛋白质标记化的方法上。

Token embeddings应该捕捉蛋白质功能

目前大多数蛋白质LM直接借用标准的NLP预训练任务进行标记嵌入,由于生物功能通常被编码为几个非线性的长距离依赖关系,能够产生上下文词嵌入的模型可能更适合蛋白质。在标准嵌入方法的替代方案中,预训练任务更具针对性地针对下游任务。例如,ProteinBERT 是在蛋白质序列与其基因本体注释一起进行编码的基础上进行预训练的。另一种可能性是在自监督语言建模任务之外,对蛋白质LM进行预训练,例如对结构信息预测。

在预训练任务中使用生物信息的缺点是可用数据的不足和潜在的数据泄漏。这些任务依赖于生物知识注释的大量可用数据,但针对于某类蛋白数据(如抗体序列)仍有限。数据泄漏则是因为训练阶段可能包含关于测试数据的信息,可能导致过于积极的结果。更详细的研究需要伴随着与预训练任务无关的下有任务,以确保LM学会了可推广的原则。

对于基于序列的预测任务,标记嵌入是得出序列嵌入的唯一来源。目前最流行的计算蛋白质序列嵌入的方法是通过平均集合(即标记嵌入的平均值)。相比之下,语言学提供了一种原则性的、规则驱动的方法,从结构组成上推导出句子的意义,。对于蛋白质LM来说,结构敏感的序列嵌入是否能被证明是可行的,这仍然是一个未被研究的问题。

总之,蛋白质LM对嵌入所包含的信息的研究尚不够广泛,因为所有评估都停留在绘制物理化学属性的表面和间接地基于下游任务的基准测试。作者认为,通过基于领域的分词和精心选择的嵌入任务,可以捕捉到超越物理化学属性的更抽象的生物功能。这样将显著提高蛋白质LM的可解释性。

可解释性方法的类型会影响可学习的模式

尽管深度LM已被证明是对序列数据建模的强大工具,但它们学到的模式仍然是隐藏的。提高模型可解释性对于更好地理解这些模型学到的内容以及找出它们失败的原因至关重要。在NLP研究中,受语言学启发的方法对LM进行探测非常流行。然而,类似的方法尚未广泛应用于蛋白质LM,作者认为将可解释性和可解释性问题纳入蛋白质LM设计是至关重要的。各种可解释性和规则提取方法可以帮助提取隐藏在黑箱模型中的生物学原理,从而为蛋白质设计和新蛋白质合成提供信息。严格的可解释性重点检查还可以帮助评估性能良好的模型是否学到了真正有意义的表示和序列-功能映射。

如图3,目前可解释性方法分为三种: 架构分析、受语言学启发的实验和语法推断。架构分析(例如研究架构中的特定层,探测预训练的嵌入,解释注意力模式热图和显著性图)是最受欢迎的可解释性方法,可以获取关于模型架构在哪里以及如何存储关于序列的各种类型知识的信息,并突出对分类任务具有重要意义的输入部分。另外两种方法,受语言学启发的实验和语法推断,可以产生模型学到的可推广、明确定义的序列-功能规则。在受语言学启发的实验中,通过输入成对的句子来测试模型对假定的序列规则的了解。如果LM成功地区分了两个不同规则的句子,那么它很可能学到了这个规则。对于蛋白质LM,该方法可以用来提取新的序列-功能规则。一个挑战是,它需要具体的假设规则,这些规则可以清楚地区分两类蛋白质序列。如果蛋白质科学家假设某种基序对某种蛋白质功能负责,那么他们可以通过向蛋白质LM输入包含基序的序列和不包含基序的序列来测试这个规则的真实性。换句话说,LM可以充当实验测试的快速代理。对于蛋白质LM的语法推断,这种方式提取的规则的一个例子可以是一个用正则表达式描述的序列模式(例如,[DC] | [A.].*G..P),与给定的生物功能相对应,从一个只接受表达该功能的蛋白质的LM中获得。与语言学启发方法相比,语法推断的优点是不需要具体的假设规则,尽管它仍然需要对可能规则的类别进行先验限制。到目前为止,有效的算法只作为概念证明存在,用于相对简单的模型(主要是RNN)和规则类型,并且不能很好地处理嘈杂的输入数据。尽管如此,随着更好的算法的推出,这些方法可能变得有用。

图2 从目前流行的简单启发式方法发展到复杂方法,以生成类似于自然语言中语义合理的标记的具有生物学功能的蛋白质标记。

图3 可解释性方法偏向于可发现规则的性质

结论

利用LM处理蛋白质序列启发于蛋白质和自然语言的相似性。自监督的蛋白质LM可以识别相关的序列规则,并进一步进行实验测试,从而有助于解决生物研究中的基本问题,并加速合理的蛋白质疗法设计。然而,目前在设计和构建蛋白质LM方面的实践还不足以使这些模型适当地适应蛋白质序列,因为对它们最初是如何构建语言序列模型的缺乏更深入的了解。在本文中,作者强调了LM管道的各个部分(预训练数据、标记化、标记和序列嵌入以及规则提取),并展示了理解这些步骤中每个步骤所依据的原始语言学意图如何能够为建立更多的生物信息的蛋白质LM提供信息,从而回答下游任务感兴趣的具体问题。

作者在本文中呼吁进行更彻底的基准实验,以对比不同的实验设计对各种任务性能的影响。作者的目的不是建立性能最好的模型,而是在扩展到更大模型之前,对LM的各个方面进行系统的研究,这些方面可能会对成功的序列功能规则学习产生影响。经过深思熟虑过的蛋白质LM更有可能为建模的序列学习到相关的生物规则,从而更适合于合理蛋白质设计的成功规则提取。

参考资料

Vu, M.H., Akbar, R., Robert, P.A. et al. Linguistically inspired roadmap for building biologically reliable protein language models. Nat Mach Intell (2023). 

https:///10.1038/s42256-023-00637-1

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多