【原】bioRxiv | 结合结构和细胞图像数据预测化合物作用机制

智药邦 2022-11-01 发布于上海

展开全文

2022年10月7日，瑞典乌普萨拉大学的研究者在预印本网站bioRxiv上发布论文“Combining molecular and cell painting image data for mechanism of action prediction”。作者利用化合物结构信息(摩根指纹)和细胞形态信息(五通道细胞绘制图像)建立模型，预测化合物的作用机制。结果显示，在两种数据上进行训练与单独的数据训练相比，具有明显的加性/协同效应，整合多个数据源有益于MoA预测。

1 引言

化合物的作用机制(The mechanism of action, MoA)描述了其产生药理作用的生物相互作用。多种数据源可以被用于预测MoA，包括化合物的结构信息和各种分析(assay)，例如基于细胞形态学、转录组学和代谢组学的分析。在本研究中，作者探索了摩根指纹(Morgan fingerprints)的结构信息和五通道细胞图像数据(five-channel Cell Painting image data)的形态信息相结合的益处和潜在的加性/协同效应。对于一个具有10类MoA的数据，作者比较了在两种信息上分别训练与同时利用两种信息进行训练的深度学习模型的性能。在一个留出测试集上，仅在结构数据上进行训练得到的宏平均F1分数为0.58，仅在图像数据上进行训练得到的宏平均F1分数为0.81，同时在两种数据上进行训练得到的宏平均F1分数为0.92。这表明了明显的加性/协同效应，说明整合多个数据源有益于MoA预测。

本文首先比较了各种传统机器学习和深度学习模型，基于20个MoA类的化学结构数据预测MoA。随后，基于10类MoA的集合，作者将最佳深度学习模型在化合物结构水平上的表现与在化合物的细胞绘制图像数据上训练的最先进的CNN进行了比较。作者选择了基于深度学习的最好的化合物结构模型。图1中显示了10类MoA的细胞绘制图像示例。这个工作以端到端方式训练五通道细胞绘制图像数据和分子指纹数据，以预测MoA，其将原始图像用作模型的输入。

图1 作为标准的10个MoA类别和DMSO数据的细胞绘制图像示例。行标题为所选图像的化合物名称，括号中为MoA的缩写，其中i代表抑制剂(inhibitor)，Ag代表激动剂(agonist)。

2 数据和方法

2.1 数据

分子数据 数据包括5500个化合物，属于1300个MoA类别。大多数MoA仅与少量化合物关联，因此作者采用了这个数据集的子集，仅选用前20个具有最多关联的化合物的MoA数据。每个MoA的化合物数量统计如图2所示。

图2 不同间隔的每个MoA的化合物计数直方图

图像数据 作者从10个表示良好的MoAs（MoAs可以合理区分，且有足够数量的化合物与其相关）中选择图像数据。这10种MoAs分别是Aurora激酶抑制剂（化合物数量，n=20个）、微管蛋白聚合抑制剂（n=20个）、JAK抑制剂（n=11个）、蛋白质合成抑制剂（n=33个）、HDAC抑制剂（n=33个）、拓扑异构酶抑制剂（n=32个）、PARP抑制剂（n=21个）、ATP酶抑制剂（n=18个）、维甲酸受体激动剂（n=19个）和HSP抑制剂（n=24个）。总共有12582张231个化合物的图像。将这些化合物以10微摩尔的剂量注入384孔板中的U2OS细胞中。每个孔中的9个位置拍摄分辨率为2160 x 2160像素的图像，每个化合物重复6次。使用PLAID（Plate Layouts using Artificial Intelligence Design，人工智能设计的板材布局）将化合物分布在18个板上。

2.2 建模

2.2.1 基于化合物结构的模型

作者探索了以下使用化学结构数据预测MoA的深度学习模型：MLP、GCN、CNN和LSTM。对于深度学习模型，通过对验证集进行模型探索和参数调整来确定最佳架构和参数。MLP是一个基本的人工神经网络，包括完全连接的输入层、隐藏层和输出层。MLP模型包含一个输入层、一个带dropout的隐藏层（p=0.85）和一个最终预测层。GCN是GNN的一个特例，可以处理非欧数据，例如具有节点和边的图。GCN模型包括邻接矩阵和节点矩阵的输入层，然后是三个带dropout的卷积层（p=0.5）、一个全局注意力层和一个最终预测层。CNN模型包含一个卷积层、一个最大池层（dropout p=0.8）、一个flatten层（dropout p=0.8）和一个最终预测层。LSTM模型包括嵌入层、双向LSTM层、dropout层（p=0.96）和最终预测层。

对于具有数据增强的LSTM，作者调整了增强的程度，以确保每类MoA在增强的训练集中有大约1000个SMILES。作者使用Adam优化器，稀疏类别交叉熵作为损失函数，验证损失作为早停的度量。为了适应类的不平衡，作者在损失函数中应用类权重来训练模型。作者还探索了基于表格数据的机器学习算法（与上面描述的深度神经网络相反）。当数据集规模相对较小时，传统机器学习模型显示出与深度学习模型相比具有更强的竞争力。作者研究了五种单独的机器学习算法和四种集成算法。单独的算法包括随机森林、light 梯度提升、cat boost、k近邻分类器和逻辑回归。集成算法包括bagging、stacking、voting和adaboost。

2.2.2 基于细胞形态学的模型

作者采用了最先进的CNN模型EfficientNet，基于5通道细胞绘制图像数据预测MoA。EfficientNet应用化合物缩放方法来同时调整宽度、深度和分辨率，以更少的训练时间和更少的参数在基于图像的任务中实现具有竞争力的性能。模型采用了EfficientNetB1架构，并使用AdamW优化器，以加权稀疏类别交叉熵作为损失函数。

2.2.3 全局模型

对于基于10类MoA的全局模型，作者集成了MLP（基于化合物结构数据的最佳性能深度学习模型）和EfficientNet（用于学习图像数据的特征）。这些模型首先分别训练，然后组合，并对其权重进行微调。全局模型的架构如图3所示。

图3 具有两条输入路径的全局模型的结构，一条用于细胞绘制图像数据，另一条用于化学结构数据。

3 结果

图4显示了预测20类MoA的基于化合物结构的传统模型和深度学习模型的性能。图中显示了训练和验证数据九次打乱的平均F1分数，以及为评估性能差异的显著性水平而进行的随机测试的结果。作者对p值进行了Bonferroni校正。传统机器学习算法的性能都是相当的，但深度学习模型之间有较大的差异。表现最好的深度学习模型是MLP，最差的是CNN；可以看到，MLP的表现与最佳传统机器学习模型不相上下。

图4 (A) 在前20类MoA的测试集上传统机器学习模型的宏平均F1分数的比较。(B) 在前20类MoA的测试集上深度学习模型的宏平均F1分数的比较。(C) 对前20类MoA测试集的宏平均F1分数进行Bonferroni校正的随机化检验。结果基于训练和验证数据集的九次打乱的平均值。

表1显示了10类MoA的测试集上的F1分数（五次打乱的训练和验证数据的平均值），比较了基于化合物结构数据训练的MLP、基于细胞绘制图像数据训练的EfficientNet和基于两个数据源训练的全局模型。测试集包含24种化合物。这个测试集对于训练和验证数据的每一次打乱都是相同的。对于MLP，不同类别的MoA的F1得分变化很大，从JAK抑制剂测试化合物的0.08到维甲酸受体激动剂化合物的1.00不等。对于EfficientNet，结果比较稳定，从Aurora激酶抑制剂的0.48到蛋白质合成抑制剂和维甲酸受体激动剂的0.98。对于全局模型，结果更为稳定，从ATP酶抑制剂的0.68到维甲酸受体激动剂的1.00不等。全局模型的宏观平均F1得分为0.92，显示出明显的加性/协同效应，F1得分增加了0.11。基于Bonferroni校正p值的随机试验，三个不同模型在5%显著性水平上均存在显著差异。

表1 预测10类选定MoA的主要三个模型的测试集F1得分。MLP使用化学结构数据，EfficientNet使用图像数据，Global模型（见图3）使用这两种数据结构。结果基于训练和验证数据的五次打乱的平均值。

4 结论

在这项工作中，作者使用不同的模型和数据源来预测MoA。MLP是基于化合物结构预测MoA的最佳深度学习模型，EfficientNet在基于细胞绘制图像数据预测MoA方面取得了令人信服的结果。MLP和EfficientNet的整合，同时适用于两个数据集，使F1得分增加了0.11，从而显示出明显的加性/协同效应。

参考文献

Tian G, Harrison P J, Sreenivasan A P, et al. Combining molecular and cell painting image data for mechanism of action prediction[J]. bioRxiv, 2022.