分享

JMC|用于化合物优化中性质预测的可解释机器学习

 智药邦 2022-01-02

大多数最先进的 ML 模型都具有黑匣子特性。在ML 模型的预测性能和解释能力之间通常需要权衡。

迄今为止,在 QSPR 分析中很少考虑可解释的 ML,因为应用 ML 研究主要集中在提高模型性能上。

2021年12月13日,来自诺华生物医学研究所的Raquel Rodríguez-Pérez和波恩大学的Jürgen Bajorath等人在J. Med. Chem.合作发表综述“用于化合物优化中性质预测的可解释机器学习”。以下是该综述内容。

摘要

从化学结构中预测化合物性质是药物化学中机器学习 (ML) 的主要任务。ML应用于化合物筛选、虚拟库枚举或生成化学等的大型数据集时,通常不需要详细了解 ML 模型决策。相比之下,化合物优化工作依赖于小数据集来修改结构获得所需性质。在这种情况下,如果应用机器学习,人们通常不愿意根据无法合理化的预测做出决定。只有少数 ML 方法是可解释的。但是,为了深入了解复杂的 ML 模型决策,可以应用解释性方法。在此,本文回顾了更好地理解 ML 模型或解释个体预测的方法,并讨论了将 ML 整合到药物化学计划中的当前挑战以及未来机会。

前言

最近,机器学习 (ML) 和深度学习 (DL) 广泛用于药物发现和化学信息学。这些方法可用于推导出定量结构-性质关系 (QSPR)的统计模型,对QSPR的探索是药物化学的中心任务。

化学结构可能与生物活性或其他特性(如溶解度或透膜性)的变化有关。ML 模型用于识别新的活性化合物或优化结构,从而在系列化合物优化过程中产生所需的特性曲线。化合物结构通常使用预定义的分子特征(描述符)进行数字编码,ML 模型学习将特征映射到感兴趣的活性或性质。即使特征和端点之间的相关性并不意味着因果关系,ML 模型也有能力预测新化合物的特性。

一些模型可以从训练实例中推断出来,从而能够前瞻性地用来预测新系列化合物的特性。因此,可以优先考虑预测结果显著改变的化合物修饰。如果成功,ML 可以在药物发现的许多阶段提供决策支持。

然而,重要的是,在使用模型进行决策支持和实验设计之前,需要对真实的外部测试集进行统计学上的验证预测。除了可靠的统计验证之外,透明的计算方法和化学可解释的模型在药物化学实践中是非常受欢迎的。了解预测是如何实现的,有助于提高模型透明度、集成专家知识、针对特定应用程序调整模型以及提取有用的见解,例如对QSPR 的学习模式。模型解释有可能克服人们对药物化学程序中无法理解预测的天然抗拒。

在 ML 中,有一种趋势是将当前最流行或最新的算法用于任何预测任务,即使产生的模型本质上是不可解释的(“黑匣子”)并且性能与更简单的方法相当。大多数最先进的 ML 模型都具有黑匣子特性。在ML 模型的预测性能和解释能力之间通常需要权衡。从主要观点来看,只有在性能或模型泛化性有所提高的情况下,增加模型复杂度才是合理的。 

迄今为止,在 QSPR 分析中很少考虑可解释的 ML,因为应用 ML 研究主要集中在提高模型性能上。本文在化合物性质预测的背景中,讨论了如何更好地理解 ML 模型的策略。

全局模型理解

通过了解全局模型特征或个体预测,可以获得对 ML 模型的理解(图 1)。一般模型理解旨在回答诸如“哪些化学模式用于学习?”或“在模型训练过程中优先考虑哪些分子特征?” 。特征重要性、相关性、贡献或权重,无论它们是如何导出的,都量化了特定分子表征特征对学习给定预测任务的影响。特征相关性估计提供了对模型学习的一般模式的见解,可以将其理解为内部模型签名。诸如亲脂性对特定性质预测的影响之类的全局变化通常为药物化学家所熟知,可能没有帮助。然而,ML 模型通常使用多个分子特征的组合来产生预测,并可能获得额外的见解。

大多数解释策略旨在识别驱动预测的分子表征特征。重要的是,可以从许多 ML 模型中提取特征贡献的度量。

图1 全局模型理解和个体解释。通过确定全局特征权重和特定特征对给定预测的重要性(个体解释),可以更好地理解模型。

线性模型

方法相关的特征加权方法包括偏最小二乘法 (PLS) 中投影的变量重要性或来自线性支持向量机 (SVM) 的权重。经典线性模型是简单且可解释的。对于此类模型,全局特征权重趋势可能反映有助于化合物优化的性质变化,例如亲脂性降低。可解释的 QSAR 建模传统上侧重于 Hansch 分析,该分析将物理化学特性与活性相关联,包括电子、疏水或空间效应。使用多元线性回归 (MLR) 模型,片段对生物活性的加和贡献通过方程量化。

另一种透明的 QSAR 建模策略是 Free-Wilson (FW) 分析,它量化了化学修饰对化合物活性的附加贡献。对于不同的 R 基团组合,FW 分析为系列化合物生成了一个可解释的模型,并能够对每个位置的取代基进行排序。FW 是一种在合成前识别有前景的取代基组合的有效技术。但是,FW 需要存在共同的核心结构,即类似系列,不适用于尚未进行的化学修饰。FW 模型的系数决定了整体取代基的重要性,这使得模型易于理解。但是,由于模型必须是针对给定的模拟系列推导出来的,因此通常不能转移到其他模型。

对于MLR等线性模型,减少相关描述符的数量或进行特征提取以获得更简单的模型是非常重要的。模型简化通常会带来更好的准确性以及改进的可解释性。

非线性模型

非线性 SVM、随机森林 (RF) 或极端梯度提升 (XGB) 等 ML 方法通常在化合物性质预测中优于线性模型。这些 ML 方法可以处理许多变量和多重共线性,这有利于预测性能,但不可避免地增加了模型复杂性。因此,这些非线性模型依赖于高维的特征空间。非线性核函数 (SVM) 难以合理化,并且已经为具有 Tanimoto 核的非线性 SVM 提出了特征权重近似值。还为大型决策树集成 (RF/XGB) 引入了特征重要性的度量,它在递归分区期间隐式地应用了特征选择。在决策树的情况下,特征重要性值基于信息论中的概念,例如基尼系数或熵,它们仅估计贡献大小而非贡献符号,即特征是增加还是减少输出值。

从模型到规则

如果可以获得模型内部权重,则需要找到有效的方法来检查这些特征重要性值,评估特征之间的潜在相关性,并从这些值中提取有用的规则,而不管使用的分子表示如何。

特征选择方法还有助于检测负责准确预测的信息分子特征/描述符的子集。如果驱动预测的特征始终指向特定性质,例如氢键数量或溶解度,则可以根据训练数据从特征加权中推断出经验法则。然而,如果模型过度拟合,训练数据的高特征重要性估计并不是预测性的指标。

因此,根据应用,可能需要基于独立数据的特征重要性。例如,导致测试性能变化的特征排列分析是全局模型解释的与方法无关的少数策略之一。通过聚合对单个预测的多种解释,也可以对模型进行基于测试集的全局理解。 此外,探索主成分分析 (PCA) 的负载也可能有助于更好地理解分子描述符和模型预测之间的多元关系。此外,还引入了特征重要性相关指标,以根据化合物活性数据检测具有相似配体结合特征的蛋白质,而无需了解共享的活性化合物。

特征重要性分析不仅可以揭示导致正确或错误预测的特征,还可以揭示模型对无法解释的特征的偏见。除了模型诊断之外,可量化的特征趋势可能有助于制定 SPR 规则并为化合物优化带来新思路。

了解个体预测

ML 模型通常至少包含一些具有高度优先级的特征。然而,全局解释并没有为个体预测提供解释。对于给定的化合物或系列,源自训练数据的全局特征重要性值可能无法揭示驱动预测的特征模式。相反,必须探索个体预测。对单个预测的解释侧重于诸如“哪些特征模式对预测很重要?”或“哪些特征驱动给定化合物的预测?”

对于与亲脂性相关的分子特性,如果作为输入描述符给出,ML 模型最有可能优先考虑 LogP。然而,对于特定的化合物系列,LogP 可能不会提供信息,因为其值接近数据集平均值(预期值),其他特征可能对预测的贡献更大。不同的场景说明了理解全局模型性能和个体预测的互补性。例如,对所有预测具有中等但一致影响的特征可能具有全局重要性。然而,多个低重要性特征的存在会显著改变个体预测。

重要的是,已经提出了模型依赖或独立(不可知)的策略来解释单个预测。后者的优点是适用于任何复杂性的 ML 算法,从而减轻了分析模型准确性和可解释性之间权衡的需要。

基于特征的方法

分子特征的变化通常会导致预测值的差异。对输入特征(也称为特征扰动)进行系统修改,以深入了解模型行为。

敏感性分析首先用于研究特征空间扰动后化合物活性预测变化的影响。Franke等人报道了药效团点的权重,根据它们使用 SVM 预测环氧合酶-2 和凝血酶抑制剂的重要性。重要性值被估计为特征移除后的预测变化,并且对特征有贡献的原子获得相应的权重。然而,大量的特征限制了敏感性分析的适用性并且需要近似值。最近, Covert 等人已经定义了一个基于特征去除的统一解释框架(图 2)。已经开发了不同的方法来量化从模型中删除特征集的影响,但只有少数方法在化学信息学中找到了应用。

这些解释方法在特征去除策略上部分不同,例如,通过将特征设置为零在模型输出中进行解释,概率以及特征重要性方法,删除单个特征或在具有删除特征的实例数据集中拟合线性模型。它们包括基于交互的方法来解释, 遮挡, 本地可解释的模型不可知解释 (LIME) 或 Shapley 附加解释 (SHAP)。SHAP 是 LIME 的扩展,根据它在测试实例的特征空间局部性中用代理模型近似一个复杂模型。LIME 对参数进行启发式选择。

相比之下,SHAP 方法引入了与 Shapley 值定义相关的特殊核函数。随后的特征重要性值近似于 Shapley 值。Shapley 价值概念起源于博弈论,根据团队成员的协作贡献划分回报或收益。这是通过考虑团队成员的所有排序来实现的,可能会导致协同或补偿效应。因此,Shapley 值具有所需的特性,包括局部精度和一致性。SHAP 近似适用于生成对化合物功效和多目标活性预测的解释。局部解释能够分析全局未观察到的协同或补偿效应。

一些文章还提出了基于梯度的方法来局部解释来自分类模型的个体预测,并已应用于 QSAR。Baehrens 等人基于局部梯度(或概率估计)的估计解释,指示必须如何修改数据点以更改预测标签。Chen等人将使用 R-group 特征的局部 FW QSAR 模型与 SVM 相结合,从而能够预测新的 R-group。此外,在 R 组签名描述符上训练 SVM,并从 R 组签名梯度获得重要性值。

图2 基于特征或原子去除的解释。如左图所示,可以系统地消除分子特征(白色方块)并将修改后的特征向量用作 ML 模型的输入。或者,如右图所示,可以从化合物中去除原子并生成新的特征向量。在这两种情况下,预测的变化都反映了扰动特征或原子的重要性。特征贡献可以是正(红色)或负(蓝色)。

基于化合物的方法

一些研究还通过推导近似模型预测的规则集来尝试模型解释(称为规则提取) 或确定最接近测试实例的训练化合物(最近的邻居)。基于相似性的方法不仅依赖于标准度量,例如二进制指纹的 Tanimoto 系数,还依赖于基于模型的距离。例如,两种化合物之间的 RF 接近度度量计算为森林中两种分子到达同一终端节点的树的比例。

在化学信息学中,匹配分子对 (MMP) 形式化也有助于实验结果的可解释性以及模型预测。MMP 由两种不同的化合物形成,它们的不同之处在于单个位点的取代。形成 MMP 的两种化合物(类似物)之间测量或预测的性质差异由交换的取代基解释。

基于原子或片段的方法

原子和片段扰动被提议用于相似性图以及结构和物理化学解释 (SPCI)。这些方法通过确定移除后预测的变化来估计单个原子(或碎片)的重要性(图 2)。因此,计算完整分子或更小碎片的特征向量并用于训练模型。这种方法直观、普遍适用,并可能解释预测。然而,单个原子的移除可能不会对某些预测产生重大影响,尤其是对于较大的化合物,尽管单个原子的替换也可能导致活性的巨大变化(例如“神奇的甲基”效应)。片段也可以分析,需要定义片段类型和片段规则。另一方面,与相似图或通用方法相比,这些方法没有考虑不同原子或碎片之间的相关效应。

基于图的方法

研究人员还试图解释图卷积神经网络 (GCNN) 的预测。在这种情况下,不需要外部分子特征计算,因为 GCNN 从分子图中学习表示。GCNN 将原子视为节点,将键视为边,以及一组节点性质。一个可调函数应用于每个节点及其相邻节点。还提出了基于以键而不是原子为中心的卷积策略。

通过使用卷积层和池化层并通过总结特征向量来学习表示。这种适应性表示可以被视为进一步扩展了摩根指纹(具有给定键直径的圆形指纹)的概念,并且可能会产生对给定建模任务更具代表性的特征。值得注意的是,使用相似图或通用方法,GCNN 比其他 ML 算法更难解释。 

此外,还引入了基于注意力机制的方法来理解 GCNN 预测(图 3)。Tang等人使用消息传递神经网络将这种方法应用于分子亲脂性和水溶性预测。Xiong等人提出了一种基于图的神经网络架构,具有两个图注意力层,以学习输入结构的原子(局部)和分子(全局)性质。提取学习到的注意力权重提供了对个体解释的访问。另一种名为 GNNExplainer 的基于图的解释方法是由 Ying等人开发的。这种方法通过最大化交互信息来搜索对预测至关重要的子图结构和一小组节点特征。该算法利用图形中的关系信息,同时导出图形和特征掩码。也有人提出积分梯度来解释 GCNN。随着预测从基线输入开始,该方法估计特征(或节点)的贡献。积分梯度的应用包括预测逆合成反应和药理学相关的化合物特性。例如,Ishida等人使用积分梯度来识别参与特定反应的原子。重要的是,这种方法不仅适用于 GCNN,还适用于任何可微分的 NN 架构。

图3 基于 GCNN 注意力机制的解释。不同的 GCNN 架构可以学习基于原子或键特征的表示以及对相邻节点的卷积应用。图示的是图注意力层,它递归地考虑更多节点的影响,并将更大的权重应用于相邻节点的子集。

直观的解释

分子表示极大地影响模型性能和解释。无论使用何种特征或描述符,都可以应用大多数解释性方法。然而,如果可能的话,解释要求特征是可理解的和化学直观的。例如,如果给定的原子或官能团强烈影响高代谢清除率的预测,药物化学家可能会尝试替换它。因此,重要的描述符应该是可操作的。

在全局和局部模型解释中,对于涉及许多相关特征的最新 ML 模型而言,完整的解释通常过于复杂。因此,提取化合物优化的直观解释并非易事。全局解释优先关注解释许多预测的一般特征相关性,而对于单个预测,人类通常更喜欢专注于异常情况或明显对比的简明解释。例如,在评估预测时,药物化学家可能对诸如“为什么模型做出这个预测而不是另一个?”、“哪些结构修改改变了这个预测?”,或“必须保留哪个核心才能产生此预测?”

使用对比解释和反事实的概念可以产生直观和人性化的解释。对比解释试图识别最小特征子集,其存在或不存在负责特定类别标签预测。反事实是相似的测试实例,具有导致不同预测的小特征变化,例如,分配给不同性质类别的相似化合物。分析这些例子有助于使基于人类推理的相反预测合理化。与反事实类似,对抗样本是通过探索将正确预测转换为错误预测的最小特征变化来获得的。因此,对抗性示例“愚弄”了模型。尽管对比解释和反事实的概念尚未应用于化合物性质预测,但它们可能与局部和全局模型解释之间的桥梁高度相关,并以直观的方式表示模型决定因素或限制。最近,提取特征、原子或片段重要性值的方法也可能为生成简单解释提供起点。

直观的可视化

可视化是模型解释的主要组成部分。特征、原子或片段重要性值最好以直观的图形方式呈现,以理解模型决策。无论重要性值是如何估计的,根据估计的原子相关性对分子进行着色为单个预测提供了直观的解释,如在图4A中特征映射到化合物结构有时是必需的。因此,这种解释方法通常是结合结构指纹或基于图的方法开发的,以突出相关的子结构。为了可视化基于二元子结构指纹的活动预测,Rosenbaum 等人根据线性 SVM 模型的权重着色原子和键,随后扩展到非线性 SVM。 

这些热图可以通过简单的可视化进行补充,例如条形图,其中条形长度与特征重要性成正比。这些条形可以连接在一个单线图中,条形颜色表示特征重要性或权重的符号(图4B)。这种可视化在 SHAP 分析中很常见,其中所有特征性质和预期值的总和等于预测。条形图也是探索模型特征重要性值和获得全局见解的有用可视化(图4C)。

图4 替代特征重要性可视化。在 (A) 和 (B) 中,分别显示了单个化合物预测的两个示例性可视化,分别是热图和堆积条形图。正特征贡献以红色表示,负贡献以蓝色表示。在 (C) 和 (D) 中,ML 模型的特征重要性值分别用条形图和极坐标系表示。

另一个依赖于极坐标系的可视化方案被引入到使用 SVM 和朴素贝叶斯模型的活动预测中。在这里,特征被组织成子集(例如pattern、ring或count),放置在坐标系中的不同区域,并表示为彩色点,指示对预测的积极或消极贡献(图4D)。此外,对于二元分类模型的解释,Webb 等人提出了一种基于分层网络的可视化,说明了特征或片段组合及其对预测标签的影响。这种视觉解释应用于不同的方法,包括 RF、SVM、k-最近邻和决策树,用于预测 Ames 致突变性。

结语和展望

在计算机科学中,可解释 ML 是指没有黑盒特征的模型,包含旨在更好地理解复杂模型所做预测的方法。在化学和药物设计中,鉴于复杂的深度神经网络架构的应用越来越多,可解释的机器学习目前正受到广泛关注。

当然,模型解释对于 ML 在药物化学中的应用并非必不可少。在某些情况下,研究人员可能更喜欢黑盒模型而不是可解释的模型,原因包括前者性能更高、直接访问底层技术或易用性等。当能够快速获得数据时,可以根据黑盒预测对化合物或实验进行优先排序。

但是,对于需要通过机器理解来做出具有化学意义决策的应用程序,证明使用复杂的不可解释的 ML 比使用更简单和可解释的模型更合理、更有性能优势是必不可少的。当首选复杂的机器学习方法时,可以使用模型解释方法。尽管 ML 研究主要集中在提高预测性能上,最近也已经引入了各种模型解释方法。但是,目前还没有在该领域普遍适用和接受的方法论。有前景的方法因 ML 算法、分子表示和具体应用而异。

一些方法侧重于全局模型理解,而另一些方法侧重于个体预测。全局和局部(单一预测)解释在模型构建和评估的不同阶段是相关的。例如,对复杂 ML 模型的个体预测进行合理化可能会为药物化学家带来更简单、更直观的解释。通常,必须考虑更多的特征和多变量可视化,并进行统计数据分析。无论如何,如果能够获得简洁和化学直观的解释,ML 预测在药物化学中的应用有可能增加,例如分子颜色代码或反事实。

对 ML 预测的见解还为检测潜在模型偏差和迭代模型改进提供了基础,这在 ML 模型难以泛化的情况下尤其重要。对于透明模型,使用各种性能指标的统计验证可以辅以基于知识的评估,这支持模型构建并通常有助于为 ML 应用程序产生新的想法。生成可解释的模型或对复杂模型的直观解释对于在药物化学中充分利用 ML 以及缩小预测建模与实际应用之间的差距至关重要。

显然,需要更多的研究来进一步开发和完善模型合理化的方法。模型解释通常依赖于近似值,因此总体是不完整的。此外,ML 模型会产生固有的预测误差,而化合物预测具有相关的不确定性。有时,化合物结构的微小变化可能只会导致被模型错误覆盖的预测值的微小变化。

此外,重要性低的特征可能会导致与模型噪声相当的预测差异。因此,应考虑任何基于特征、原子或片段的重要性值,同时考虑模型错误和模型的适用范围。用于校准具有特征敏感性和预测准确性的模型解释的新方法论概念的发展将是令人兴奋的进步。此外,理想情况下,模型解释将通过考虑“罗生门效应”来扩展,这是指对于可能不一致的给定预测,存在同样合理的解释情况。当前的解释方法还受到对特征(描述符)类别和 ML 方法变化的高度敏感性以及预测性质和累积重要性值之间有限相关性的影响。因此,虽然可视化很重要,但基于特征重要性值的原子着色方案有时可能会产生误导,因为它们不能捕捉因果关系,并且对所使用的分子表示和 ML 模型不是一成不变的。解决这些限制还需要进一步调查以更好地了解它们的起源。需要控制计算来评估特定的解释方法是否优先考虑主要影响模型训练或预测的特征。系统特征消除后进行模型再训练可能会揭示模型的(不)稳定性和解释的一致性。

此外,考虑到该领域普遍接受的标准很稀少,模型解释方法很难进行基准测试。尽管最近努力生成有意义的基准数据集,该领域仍然缺乏模型可解释性的明确基准,需要额外的工作来严格比较解释方法。

毫无疑问,正确评估模型解释方法将受益于数据科学家和药物化学家之间的密切合作。因此,未来在药物化学及其他领域,可解释的 ML 研究有很多机会。

参考资料

Raquel Rodríguez-Pérez and Jürgen Bajorath, Explainable Machine Learning for Property Predictions in Compound Optimization, J. Med. Chem. 2021, 64, 24, 17744–17752, https:///10.1021/acs.jmedchem.1c01789.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多