分享

【药物发现】高泛化能力的成药性打分

 GoDesign 2022-08-17 发布于北京

化合物的成药性,主要是指化合物能够顺利地通过临床前开发和各期临床试验,最终作为安全的上市药物的倾向,是人们孜孜以求的从计算上预测的目标之一。如果它能够被准确预测,那么毫无疑问将减少很多药物研发过程的成本。韩国KAIST大学的Kyunghoon Lee等研究人员提出了一种无监督学习方式的成药性打分,在若干个类药性程度不同的数据集上泛化性良好。他们的研究结果发表在Chemical Science上,题为“Drug-likeness scoring based on unsupervised learning”

背景——

化合物的成药性这样一个看似跟药物研发过程的很多主客观因素相关的属性,研究人员对它进行建模的主要的信心来源还是在于与成药相关的一系列化合物的表现,比如活性、代谢稳定性和毒性等,理论上是能够从分子结构预测出来的。但是其中复杂的问题在于,成功上市的化合物分子可以作为毫无疑问的正样本,而负样本的挑选却是要慎之又慎。目前有不少研究使用机器学习模型来判断化合物的成药性,让模型学习研究人员挑选的正负样本,预测化合物分子能作为上市药物的概率(作者称这类模型为TCC模型, two-class classification),但这样做存在对挑选的负样本依赖、泛化能力差的问题。

而对于传统的基于规则的方法,比如利宾斯基五规则,已知有16%的口服药物违反了至少一条规则,而有6%的药物违反了超过两条。广泛使用的类药性指标QED是对化合物的8种性质与已知药物进行分布的分析和比较,但被发现它对于药物分子和非药物分子的区分度并不好。这些传统的指标不依赖于负样本的挑选,只关注在药物分子本身的特点,但是人为挑选的规则/特征存在局限性。

作者提出的无监督成药性打分,通过一个基于SMILES的语言模型学习上市药物的特征和评估任意分子符合所学习的上市药物特征的程度,本质上是避开了负样本的挑选问题和使用神经网络模型提取特征的两种优势做法的结合。

——研究方法——

正“负”样本的挑选。作者选取上市药物(来自FDAWorlddrug)作为正样本,其中Worlddrug药物分子作为训练集而FDA药物分子作为测试集。虽然作者的方法只学习药物分子的特征,但是在评估时仍然需要有负样本来判断和比较成药性打分的表现。作者选择的是来自GDB17(穷举小于17个原子的分子库)、ZINC15(可购买测试的分子)和ChEMBL(有测活记录的分子)的分子构成负样本。这几个不包含已知药物分子的化合物库,作者认为它们中的分子的类药程度是GDB17<ZINC15<ChEMBL,并且认为成药性打分应该能够捕获这一趋势。

基于语言模型的成药性打分方法。由于生成模型能够对药物分子潜在的化学空间分布进行建模,作者构建了药物分子的SMILES RNN语言模型,它能够对一个分子在化学空间中是否与药物分子相近给出定量的概率评估,如果在化学空间上分布相近那么有理由认为这个分子可能具备成药性。作者将这一概率转换为具体的成药性打分:

 图1. RNN语言模型成药性打分定义

基线方法。作者训练了一个基于图卷积神经网络的TCC成药性预测模型,用来预测一个分子可能成为药物分子的概率,这个模型同样使用Worlddrug作为正样本而从ZINC15中随机抽取了相同数量分子作为负样本。另外,QED也被作为比较的基线方法之一。

——结果——

合适的TCC模型比只学习药物分子特征的模型更优。作者使用FDA为正样本而ZINC15分子为负样本(FDA/ZINC15)的测试集来测试几种成药性打分的表现,他们发现由于他们的TCC模型在Worlddrug/ZINC15的训练集上学习,所以在测试集上TCC的表现接近理想的水平(AUROC接近1),而他们的RNN语言模型给出的成药性打分在同样的测试集上的分类表现稍逊一筹,QED指标却比随机分类的表现还更差。

图2. FDA/ZINC15测试集上的分类ROC曲线,图例中每种模型方法后面括号中的数值是对应的AUROC。

RNN语言模型的成药性打分泛化能力更佳。虽然TCC模型在FDA/ZINC15测试集表现更加,但是在不那么“合适”(与TCC模型学习过程不匹配)的其他两个测试集FDA/GDB17FDA/ChEMBL上,TCC模型则表现出了明显过拟合(图3),并且也不符合GDB17<ZINC15<ChEMBL的类药程度排序的预期,即TCC模型在FDA/GDB17测试集上并没有对更有可能跟上市药物差异大的GDB17分子进行更好地分类。而RNN语言模型的成药性打分则在三个测试集上都有良好的分类表现,并且符合类药程度排序的预期,QED指标的表现则在三个测试集上的表现都很差。

图3. 三个模型在三种测试集上的分类表现,以AUROC体现

从三个成药性打分模型对各个数据集分子的成药性估计分布,可以推出相同的结论:QED对不同数据集分子的区分度差(图4a),RNN语言模型打分有区分度且分布均值趋势符合预期(图4b),而TCC模型有明显的过拟合情况,对作为学习对象的药物分子(FDA)和ZINC分子界限划分明显,而对于学习对象之外的分子过分乐观(图4c)。

图4. 三个成药性打分模型对各个数据集分子的成药性估计分布。左QED,中RNN语言模型打分,右TCC打分

RNN语言模型对临床阶段的化合物的成药性预测符合逻辑。最后,作者额外考察了处在临床阶段的化合物分子,其成药性打分的分布落在ChEMBL和上市药物分子之间,这一点符合对临床阶段的化合物的预期,并且可以发现临床阶段的分子与ChEMBL分子的分布比较相近,与上市药物分子的分布差异较大,作者认为这是由于临床阶段失败率高的特点导致。

图5. RNN语言模型成药性打分对临床阶段的化合物分子的预测,与ChEMBL和药物分子比较

——总结——

作者提出了一种泛化性更好的成药性打分模型,结合了避免依赖负样本挑选和使用神经网络自动提取特征的优势,通过比较也指出了被广泛使用的QED指标存在的问题,不过目前这个形式的打分可能存在随原子数的增加而下降的偏差。

参考文献:

Lee, Kyunghoon, etal. "Drug-likeness scoring based on unsupervised learning." Chemical Science 13.2 (2022): 554-565.
DOI:10.1039/D1SC05248A

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多