【原】Nature Protocols | 大规模对接的实用指南

DrugAI 2022-04-19

展开全文

本文介绍由美国加州大学旧金山分校、瑞典乌普萨拉大学以及Leidos Biomedical Research公司的研究人员——Brian K. shoichet课题组发表在Nature Protocols的研究成果：在早期的药物发现中，对大规模化合物库进行基于结构的对接筛选就已经非常常见，作者概述了在此过程中的一些最佳实践和控制对接计算来帮助评估对接参数。作者具体地介绍了基于结构的药物发现通用指南和使用DOCK3.7对接软件、ZINC20筛选数据库进行对接任务的细节。最后，作者给出预期结果并列举出一些可能导致实验失败（所买的化合物并未显示出对靶标的活性）的原因。

介绍

使用生物物理实验筛选化学库已经成为了发现新化学型的主流方法。尽管通过高通量筛选（High-throughput-screening，HTS）筛选后的库与使用传统的前分子药理学的库相比，它们已经做了很大的扩展，但它们仍然只代表极少数可能的“类药物”分子。

在探索更大的化学空间的过程中，使用虚拟库进行计算是一种有吸引力的方式，因为虚拟库中至少包含了数百亿，甚至可能更多的分子。当然，由于时间、成本和存储的限制，这些化合物中很少有能够真正合成的，但人们可以使用一些计算方法来优先考虑那些“应该追求”的化合物。

超大库的对接带来了机遇的同时也带来了挑战。为了对接测试库中的每个分子在蛋白质结合位点中的适合度，通常需要对数十万到数百万种可能的配置进行采样，然后使用几种不同的评分函数中的一种来对分子的适合度进行评分。为了在中等规模的计算机集群（例如500-1000核）实现10亿分子库，这种计算的消耗必须不超过1s/分子/核（1ms/配置）。这意味着计算无法提供达到化学精度所必需的详细程度和相互作用项的数量。因此，对接通常采用欠采样的构象状态、忽略重要的项和使用近似项等处理手段。

这些近似以及被忽略的项使得对接产生已知的误差，甚至导致该方法不能对来自更大的库筛选的分子进行可靠的排序，只能寄希望于从大量不太可能和靶标结合的分子中分离出小部分合理的配体。本文的目标是为研究者提供此类最佳实践和超大型库对接的控制计算，尽管它们同样适用于中等规模的库对接。虽然这并不能确保未来对接活动的成功，但研究者可以避免一些更常见的失败原因。

基于虚拟结构的药物发现通用指南

作者描述了可用于各种对接程序的方案和控制（图1）。

结构准备

任何基于结构的对接活动都是从合适的靶标位点开始。对于虚拟筛选活动来说最好的切入点通常是一个高分辨率的配体结合结构。配体结合（holo）结构通常要优于无配体（apo）结构，原因是结合口袋的几何形状在结合状态下更好定义。

完全按照数据库中的结构来使用并不总是一个好主意，通常需要考虑突变、水分子、氢原子、辅因子等因素，对高分辨率的蛋白质结构进行修改。

同源模型

当靶蛋白的实验结构尚未确定时，可以根据已知具有高序列同一性的模板结构生成结构模型。有两个原则可以提高成功几率：

（1）通常，靶标和模板之间的序列同一性越高，模型准确性就越好。应特别关注靶标结合口袋的同一性，如果可能的话，选择结合口袋中同一性最高的模板。

（2）在建模过程中加入配体或以配体为主导的同源建模方法将有助于防止口袋内陷，并将更好地定位结合残基的侧链。

控制计算

与实验控制一样，控制计算不能确保预期的成功，但它们确实避免了明显的失败来源。通过关键的控制，可以评估准备好的结合口袋和对接参数是否可以优先考虑已知配体而不是假定的非活性分子。

由于识别出活性物质比非活性物质更有可能，通用的做法是使用性质匹配的诱饵，一种和活性物质有相似物理性质但拓扑结构不相关的化合物。

除了性质匹配的诱饵外，还可以用其它化学物质来评估对接模型的不同方面（图3）。

预期筛选

一旦对接模型被校准好，大型分子库就可以针对靶蛋白进行虚拟筛选了。在筛选过程中应当更加注重那些容易测试的化合物。ZINC20数据库列举了超过140亿种商业可用的化学产品，其中约7亿种可用于计算3D构象库。此外，ZINC20允许预先选择分子子集进行对接，减少计算时间。预期筛选的结果是按对接分数排序的分子列表。

Hits挑选

一个受到良好控制的对接计算能将可能的配体集中在排名靠前的分子中。但即使它能将其集中在前0.1%，在10亿个分子的筛选中，仍然需要考虑100万数量的分子；此外，由于在对接中存在固有误差，其中许多将是假阳性。因此，作者很少考虑将对接排名最前的N种化合物拿去测试，而是使用额外的过滤器在排名30万到100万的分子中去识别最有希望的Hits。这些过滤器可以捕捉主要对接函数所遗漏的问题特征，确保和已知配体的差异性和促进这些优先考虑的化合物的多样性。

化合物可以根据正面和负面的特征进行过滤。此外，由于密切相关的化合物可能对接得到相同的姿势和分数，作者通常在使用所有其它过滤器后通过2D结构相似性对化合物进行聚类，并且选择最佳评分聚类代表进行测试。最后，目视检查对于选择购买哪些化合物也有所帮助。按照表2的标准，在过滤和聚类操作之后作者通常会目视检查多达5000种化合物。

测试对接Hits

对接活动的成功最终取决于其揭示新化学型的能力，这些化学类型可以在实验中与靶标结合，通常是在结合或功能实验中。在此过程中，应该控制常见的artifacts：可能干扰特定检测的化学类型、共价加合物、redox cyclers和Aggregators等。

选择Hit的类似物来指导优化

幸运的话，如果筛选成功并且对接Hits也通过了实验验证，新获得的骨架将成为探索结构-活性关系的蓝图并且能够指导参数优化。此外，还需考虑立体异构体的情形，如果在立体异构体混合物中只有一种立体异构体对靶标显示出活性，会导致测量效力降低。因此，可以从按需定制的化合物提供商初处购买纯化的立体异构体。

以下几种方式可进行Hit优化。合成化学团队可以从供应商处获得母体化合物的合成路线，从而可以生成受药物化学启发的类似物系列。或者，可以使用化学信息学工具来在可购买的化学空间进行搜索，以寻找和母体化合物结构相关的骨架或具有和母体化合物的共同子结构的分子。最后，母体化合物提供商也可以提供和Hit骨架类似的分子集。

基于DOCK3.7和ZINC20进行对接任务

作者给出了基于DOCK3.7和ZINC20进行对接任务的步骤（如下图所示），具体操作详见原论文。

预期结果

在方案的最后阶段，受体将被转换成一个dock-readable结合口袋，以及得到一个通过回顾控制计算优化且对大规模数据库进行预期筛选的系统。尽管该方案是具体到一个单一的靶标，产生了成功的结果，但作者同样将该方案运用到其他大量的靶标并取得成功，证明了该方案的普适性。虽然作者尝试给出了所有相关步骤，但仍然建议多人审查数据后再决定购买哪种化合物。

如果所购买的化合物均未显示出对靶点的活性导致实验失败，可能有以下几点原因：

（1）使用了错误的结合口袋构象进行计算；

（2）在化合物库中，最可能对接的那类化合物样例不充足；

（3）由于缺乏已知的化学物质，无法进行回顾性优化；

（4）由于电子密度差或者细化错误导致实验结构中的链或环的位置含糊不清；

（5）不正确或者低质量的同源模型。

参考资料

Bender, B.J., Gahbauer, S., Luttens, A. et al. A practical guide to large-scale docking. Nat Protoc 16, 4799–4832 (2021).

https:///10.1038/s41596-021-00597-z