分享

麻省理工学院:分子设计的自动化加速了药物的开发

 大曲若直 2018-07-13

麻省理工学院:分子设计的自动化加速了药物的开发

新药物分子的设计是一个人工的、耗时且容易出错的过程。但麻省理工学院的研究人员已在设计过程完全自动化方面迈出了一步,这将极大地加快设计进度并具有更好的效果。

药物发现取决于控制的优化。在这个过程中,化学家选择已知潜力的目标(“控制”)分子,以靶向治疗特定疾病,然后调整其化学性质,以实现更高效力及其他方面的潜力。

通常,化学家运用专业的知识手段并对分子进行手动调整,添加或去掉具有特定化学反应的官能团原子和键。即使他们使用系统来预测最佳的化学性质,化学家仍然需要修改每一个步骤。这可能需要几个小时的依次迭代,仍然可能没有产生有效的候选药物。

麻省理工学院的计算机科学与人工智能实验室(CCAID)和电气工程与计算机科学系(ECES)的研究人员已经开发出一种模型,该模型能够更好地根据期望的性能选择控制分子的候选物。它在修饰能够实现更高效力的分子结构的同时确保分子仍然是化学有效的。

该模型基本上代表了输入分子结构上的参数,并直接创建分子结构图,分子结构图详细表示了分子的结构,节点表示原子,边缘表示键。模型还将这些图形分解成更小的有效官能团,并用作“构建块”,帮助它更准确地重建和更好地修改分子。

“这背后的动机是用自动化迭代来代替低效率的人工修饰设计分子的过程,并确保我们产生有效性的分子的”。计算机科学与人工智能实验室的博士生Wengong Jin在七月召开的2018届机器学习国际会议上说道。他是描述该模型论文的第一作者。

Regina Barzilay和Tommi S. Jaakkola加入到Jin的论文研究中,Regina Barzilay是计算机科学与人工智能实验室(CSAIL)及电气工程和计算机科学(EECS)的教授 ,Tommi S. Jaakkola是CSAIL,EECSD的电气工程和计算机科学,以及在数据系统与社会研究所的教授。

这项研究是在麻省理工学院和八家制药公司在5月份宣布的药物发现与合成组合的机器学习中进行的。该组合中控制的优化是药物发现中的一个关键挑战。

Barzilay说:“今天,这真的是一种需要很多娴熟技术的化学家才能成功工艺,这正是我们想要改进的,下一步工作是将这一技术从学术界应用到真正的药物设计实例中,并证明它可以帮助人类化学家工作,这是具有挑战性的。”

“自动化过程也带来了新的机器学习的挑战,学会关联、修改和生成分子图驱动了新的技术思路和方法。”Jaakkola说。

分子图的生成

Jin说,近年来,试图分子自动化设计的系统出现了,但它们的问题在于其有效性上。这些系统,经常产生化学规则下无效的分子,它们不能产生具有最佳性能的分子。这实质上使得分子设计的全自动化不可行。

这些系统运行依赖于分子的线性符号,称为“简化分子输入线性输入系统”或SMILES,其中长串的字母、数字和符号代表可以由计算机软件解释的单个原子或键。当系统改变控制分子时,它通过符号原子逐个扩展它的字符串表示符号,并通过键结合,直到它产生具有期望性能的高效能的最终SMILES串。最后,系统可以生成一个在SMILES语法下看起来有效的最终SMILES字符串,但实际上是无效的。

研究人员通过建立一个直接在分子图上运行的模型来解决这个问题,而不是SMILES字符串,可以更有效和更精确地修改它。

有效的模型其实是一个自定义的变式自动编码器——一个神经网络,它将输入分子编码成一个向量,它基本上是分子结构数据的存储空间,然后将该向量“解码”成与输入分子相匹配的图。

Jin说,在编码阶段,该模型将每个分子图分解成簇,或“子图”,每个子图代表一个特定的构建块。这样的簇是由一个共同的机器学习概念自动构造的,称为树分解,其中一个复杂的图形被映射成一个簇的树结构——它给出了原始图的一个支架。

支架树结构和分子图结构被编码成它们自己的向量,其中分子通过相似性组合在一起。这使得发现和修改分子的工作更容易完成。

在解码阶段,该模型以“粗到细”的方式重建分子图,逐步提高低分辨率图像的分辨率,以创建更精确的译本。它首先生成树形结构的支架,然后将相关的集群(树中的节点)组装成一个连贯的分子图。这保证了重构的分子图是原始结构的精确复制。

对于控制的优化,模型可以基于期望性质修改控制分子。它借助于一种预测算法来完成,该算法可对每个具有价值的潜在的分子性能进行预测。例如,在论文中,研究人员寻求具有高溶解度和合成可及性两种性质的分子。

给定期望的性质,该模型通过使用预测算法来优化控制分子,以修改其矢量,因此,通过编辑分子的官能团来实现更高的效能。它重复这个步骤,进行多次迭代,直到找到最高的预测效能分数。然后,通过编译所有的相应簇,模型最终用最新的向量解码新的结构分子。

有效更有力

研究人员从ZINC数据库中提取了250000个分子模型,ZINC是一个可供公众使用的3-D分子结构的集合。他们测试了模型产生有效分子的工作,找到最佳的控制分子,并设计具有增强效力的新分子。

在第一次测试中,研究的模型从样本分布中产生了100%的化学有效分子,相比SMILES模型从相同分布产生43%的有效分子。

第二个测试涉及两个任务。首先,该模型搜索整个分子集合,以找到最佳所需性能的控制分子,具有溶解度和合成可达性。在这个任务中,该模型发现控制分子比传统系统具有高30%的效力。第二个任务涉及修改800个在结构上类似于控制分子的分子,以获得更高的效力。这样,该模型便创造了新的分子,非常类似于控制分子的结构,平均效力提高了80%以上。

研究人员下一步的目的是测试模型除了溶解度更多与治疗相关的性能。然而,这需要更多的数据。“制药公司对与生物靶向的特性更感兴趣,但它们的数据较少。在有限的实验数据下开发模型是一个挑战”Jin说。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多