2022年10月7日,瑞典乌普萨拉大学的研究者在预印本网站bioRxiv上发布论文“Combining molecular and cell painting image data for mechanism of action prediction”。作者利用化合物结构信息(摩根指纹)和细胞形态信息(五通道细胞绘制图像)建立模型,预测化合物的作用机制。结果显示,在两种数据上进行训练与单独的数据训练相比,具有明显的加性/协同效应,整合多个数据源有益于MoA预测。 1 引言 化合物的作用机制(The mechanism of action, MoA)描述了其产生药理作用的生物相互作用。多种数据源可以被用于预测MoA,包括化合物的结构信息和各种分析(assay),例如基于细胞形态学、转录组学和代谢组学的分析。在本研究中,作者探索了摩根指纹(Morgan fingerprints)的结构信息和五通道细胞图像数据(five-channel Cell Painting image data)的形态信息相结合的益处和潜在的加性/协同效应。对于一个具有10类MoA的数据,作者比较了在两种信息上分别训练与同时利用两种信息进行训练的深度学习模型的性能。在一个留出测试集上,仅在结构数据上进行训练得到的宏平均F1分数为0.58,仅在图像数据上进行训练得到的宏平均F1分数为0.81,同时在两种数据上进行训练得到的宏平均F1分数为0.92。这表明了明显的加性/协同效应,说明整合多个数据源有益于MoA预测。 本文首先比较了各种传统机器学习和深度学习模型,基于20个MoA类的化学结构数据预测MoA。随后,基于10类MoA的集合,作者将最佳深度学习模型在化合物结构水平上的表现与在化合物的细胞绘制图像数据上训练的最先进的CNN进行了比较。作者选择了基于深度学习的最好的化合物结构模型。图1中显示了10类MoA的细胞绘制图像示例。这个工作以端到端方式训练五通道细胞绘制图像数据和分子指纹数据,以预测MoA,其将原始图像用作模型的输入。 2 数据和方法 2.1 数据 分子数据 数据包括5500个化合物,属于1300个MoA类别。大多数MoA仅与少量化合物关联,因此作者采用了这个数据集的子集,仅选用前20个具有最多关联的化合物的MoA数据。每个MoA的化合物数量统计如图2所示。 2.2 建模 作者探索了以下使用化学结构数据预测MoA的深度学习模型:MLP、GCN、CNN和LSTM。对于深度学习模型,通过对验证集进行模型探索和参数调整来确定最佳架构和参数。MLP是一个基本的人工神经网络,包括完全连接的输入层、隐藏层和输出层。MLP模型包含一个输入层、一个带dropout的隐藏层(p=0.85)和一个最终预测层。GCN是GNN的一个特例,可以处理非欧数据,例如具有节点和边的图。GCN模型包括邻接矩阵和节点矩阵的输入层,然后是三个带dropout的卷积层(p=0.5)、一个全局注意力层和一个最终预测层。CNN模型包含一个卷积层、一个最大池层(dropout p=0.8)、一个flatten层(dropout p=0.8)和一个最终预测层。LSTM模型包括嵌入层、双向LSTM层、dropout层(p=0.96)和最终预测层。 对于具有数据增强的LSTM,作者调整了增强的程度,以确保每类MoA在增强的训练集中有大约1000个SMILES。作者使用Adam优化器,稀疏类别交叉熵作为损失函数,验证损失作为早停的度量。为了适应类的不平衡,作者在损失函数中应用类权重来训练模型。作者还探索了基于表格数据的机器学习算法(与上面描述的深度神经网络相反)。当数据集规模相对较小时,传统机器学习模型显示出与深度学习模型相比具有更强的竞争力。作者研究了五种单独的机器学习算法和四种集成算法。单独的算法包括随机森林、light 梯度提升、cat boost、k近邻分类器和逻辑回归。集成算法包括bagging、stacking、voting和adaboost。 2.2.2 基于细胞形态学的模型 作者采用了最先进的CNN模型EfficientNet,基于5通道细胞绘制图像数据预测MoA。EfficientNet应用化合物缩放方法来同时调整宽度、深度和分辨率,以更少的训练时间和更少的参数在基于图像的任务中实现具有竞争力的性能。模型采用了EfficientNetB1架构,并使用AdamW优化器,以加权稀疏类别交叉熵作为损失函数。 2.2.3 全局模型对于基于10类MoA的全局模型,作者集成了MLP(基于化合物结构数据的最佳性能深度学习模型)和EfficientNet(用于学习图像数据的特征)。这些模型首先分别训练,然后组合,并对其权重进行微调。全局模型的架构如图3所示。 3 结果 图4显示了预测20类MoA的基于化合物结构的传统模型和深度学习模型的性能。图中显示了训练和验证数据九次打乱的平均F1分数,以及为评估性能差异的显著性水平而进行的随机测试的结果。作者对p值进行了Bonferroni校正。传统机器学习算法的性能都是相当的,但深度学习模型之间有较大的差异。表现最好的深度学习模型是MLP,最差的是CNN;可以看到,MLP的表现与最佳传统机器学习模型不相上下。 表1 预测10类选定MoA的主要三个模型的测试集F1得分。MLP使用化学结构数据,EfficientNet使用图像数据,Global模型(见图3)使用这两种数据结构。结果基于训练和验证数据的五次打乱的平均值。 4 结论 在这项工作中,作者使用不同的模型和数据源来预测MoA。MLP是基于化合物结构预测MoA的最佳深度学习模型,EfficientNet在基于细胞绘制图像数据预测MoA方面取得了令人信服的结果。MLP和EfficientNet的整合,同时适用于两个数据集,使F1得分增加了0.11,从而显示出明显的加性/协同效应。 参考文献 |
|