蛋白质与高通量药物筛选化合物库 | MedChemExpress

medchemexpress 2023-03-13 发布于上海

展开全文

天下苦“蛋白质三维结构”久矣

天然蛋白质具有特定的三维空间立体结构。一生二，二生三，三生空间结构，构成蛋白质肽链的氨基酸线性序列 (一级结构) 包含了形成复杂三维结构所需要的全部信息。理论来说，已知蛋白质氨基酸序列组成，就能轻松获得蛋白质三维结构，但现实远没有那么简单。目前已知氨基酸序列的蛋白质分子约有 2.1 亿个，但截至今天 RCSB PDB (www.rcsb.org) 上收录的被实验解析的蛋白质三维结构仅有 18,1295 个，不到蛋白质总数的 0.1%。究其根本，通过 X 射线衍射、核磁共振或冷冻电镜等方法获得蛋白质三维结构，哪个不耗时费力、需要大量资金投入？另，计算机预测蛋白质结构有诸多限制，SWISS-MODEL 要求序列同源性 > 30%，I-TASSER 要求序列能穿到现有结构，ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白质三维结构”久矣！直到 AlphaFold2 横空出世。

图 1. 蛋白的一、二、三、四级结构

AlphaFold2 横空出世

2020 年末，AlphaFold2 (DeepMind 公司开发的 AI 程序) 在 CASP14 (第 14 届蛋白质结构预测比赛) 中将蛋白结构预测准确性从 40 分拔高到 92.4 分，实现了原子精度或者接近原子精度的结构预测，震惊生物界。

2021 年 7 月 16 日，DeepMind 团队在 Nature 上公布了 AlphaFold2 的源代码。仅一周后，DeepMind 团队再发 Nature，公布 AlphaFold 数据集，再次引爆科研圈！AlphaFold 数据集覆盖几乎整个人类蛋白质组 (98.5% 的所有人类蛋白)，还包括大肠杆菌、果蝇、小鼠等 20 个科研常用生物的蛋白质组数据，蛋白质结构总数超过 35 万个！而且，数据集中 58% 的预测结构达到可信水平，其中更有 35.7% 达到高信度！

图 2. Alphafold 数据集网站
(免费开放网址：alphafold.ebi.ac.uk)

深究 AlphaFold2 计算模型发现，AlphaFold2 没有借鉴 AlphaFold 使用的神经网络类似 ResNet 的残差卷积网络，而是采用最近 AI 研究中兴起的 Transformer 架构，其中与文本类似的数据结构为氨基酸序列，通过多序列比对，把蛋白质的结构和生物信息整合到了深度学习算法中。从模型图中可知，AlphaFold2 与 AlphaFold 不同，并没有采用往常简化了的原子间距或者接触图，而是直接训练蛋白质结构的原子坐标，并使用机器学习方法，对几乎所有的蛋白质都预测出了正确的拓扑学的结构。统计 AlphaFold2 预测的结构发现：大约 2/3 的蛋白质预测精度达到了结构生物学实验的测量精度。

图 3. AlphaFold2 计算蛋白三维结构模型图

ZINC20 新增数十亿分子

AlphaFold2 给药物研发带来的革命性变化不言而喻：AlphaFold2 能低成本预测疾病相关的蛋白质结构，进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。而化合物数据库作为虚拟筛选的重要工具，同样决定了小分子药物研发的速度和质量。

ZINC 是一个汇总了化合物相关信息的公开数据库，是支持 2D、3D 化合物分子形式下载以及可进行快速分子查找、类似物搜索的服务网站，其分子量已经目前增长到近 20 亿，其中可购买的 13 亿化合物来自于 150 个公司共 310 个产品目录。尽管全球库存化合物的数量 (现在约为 1400 万) 每年仅增长百分之几，但按需定制化合物数量几乎呈指数增长，目前按需定制化合物的需求量已经增长至数百亿个分子，数年后将达到千亿级。ZINC20 (zinc20.docking.org) 新增百亿个按需定制化合物 (暂未添加到 ZINC 库中)，这些化合物在骨架和分子多样性上都明显优于物理筛选数据库。

图 4. 按需定制化合物增长需求量 (NPMI 分析)

VirtualFlow, 5 小时虚拟筛选 10 亿分子

一方面，蛋白结构井喷式被解析，合成方法学高速发展，化合物数据库几何级数增长，虚拟筛选成为众多药物化学工作者手中的利器。另一方面，云平台、AI 算法大放异彩。一个 CPU 上筛选 10 亿种化合物，每个配体的平均对接时间为 15 秒，全部筛完大概需要 475 年，而 VirtualFlow 平台调用 16 万个 CPU 对接 10 亿个分子仅耗时约 15 小时。更高的命中率，更快的计算速度，更强的迭代能力，虚拟筛选在药物研发进程中从未掉队。

MCE 拥有专业的虚拟筛选团队、高性能的计算机服务器、高度标准的数据隐私管理，可提供专业的分子对接、虚拟筛选服务。更有 40 余种高通量化合物库，涵盖 600 万有现货、可重复供应、结构多样、具有类药性的化合物，任您挑选。最终项目报告包含背景调研、流程概述、结果分析，更有符合文章发表要求的 2D/3D 分子对接图。

MCE 一站式药物筛选平台，虚拟筛选、化合物活性筛选、基于离子通道的化合物筛选，“快，不止一步”！2021.10.31 前下单，享受折后双倍积分 (MCE 开学季活动)，快来 Pick。

MCE 的所有产品仅用作科学研究或药证申报，我们不为任何个人用途提供产品和服务。

注：
1、每个库中的分子数量实时变动，以上分子数量仅供参考，以官网实时数据为准。
2、更多数据库详见 MCE 官网。

参考文献

1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021.
2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.
4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.
5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.