天下苦“蛋白质三维结构”久矣 天然蛋白质具有特定的三维空间立体结构。一生二,二生三,三生空间结构,构成蛋白质肽链的氨基酸线性序列 (一级结构) 包含了形成复杂三维结构所需要的全部信息。理论来说,已知蛋白质氨基酸序列组成,就能轻松获得蛋白质三维结构,但现实远没有那么简单。目前已知氨基酸序列的蛋白质分子约有 2.1 亿个,但截至今天 RCSB PDB (www.rcsb.org) 上收录的被实验解析的蛋白质三维结构仅有 18,1295 个,不到蛋白质总数的 0.1%。究其根本,通过 X 射线衍射、核磁共振或冷冻电镜等方法获得蛋白质三维结构,哪个不耗时费力、需要大量资金投入?另,计算机预测蛋白质结构有诸多限制,SWISS-MODEL 要求序列同源性 > 30%,I-TASSER 要求序列能穿到现有结构,ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白质三维结构”久矣!直到 AlphaFold2 横空出世。
图 1. 蛋白的一、二、三、四级结构
AlphaFold2 横空出世 2020 年末,AlphaFold2 (DeepMind 公司开发的 AI 程序) 在 CASP14 (第 14 届蛋白质结构预测比赛) 中将蛋白结构预测准确性从 40 分拔高到 92.4 分,实现了原子精度或者接近原子精度的结构预测,震惊生物界。
2021 年 7 月 16 日,DeepMind 团队在 Nature 上公布了 AlphaFold2 的源代码。仅一周后,DeepMind 团队再发 Nature,公布 AlphaFold 数据集,再次引爆科研圈!AlphaFold 数据集覆盖几乎整个人类蛋白质组 (98.5% 的所有人类蛋白),还包括大肠杆菌、果蝇、小鼠等 20 个科研常用生物的蛋白质组数据,蛋白质结构总数超过 35 万个!而且,数据集中 58% 的预测结构达到可信水平,其中更有 35.7% 达到高信度!
图 2. Alphafold 数据集网站 (免费开放网址:alphafold.ebi.ac.uk) 深究 AlphaFold2 计算模型发现,AlphaFold2 没有借鉴 AlphaFold 使用的神经网络类似 ResNet 的残差卷积网络,而是采用最近 AI 研究中兴起的 Transformer 架构,其中与文本类似的数据结构为氨基酸序列,通过多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。从模型图中可知,AlphaFold2 与 AlphaFold 不同,并没有采用往常简化了的原子间距或者接触图,而是直接训练蛋白质结构的原子坐标,并使用机器学习方法,对几乎所有的蛋白质都预测出了正确的拓扑学的结构。统计 AlphaFold2 预测的结构发现:大约 2/3 的蛋白质预测精度达到了结构生物学实验的测量精度。
图 3. AlphaFold2 计算蛋白三维结构模型图
ZINC20 新增数十亿分子 AlphaFold2 给药物研发带来的革命性变化不言而喻:AlphaFold2 能低成本预测疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。而化合物数据库作为虚拟筛选的重要工具,同样决定了小分子药物研发的速度和质量。
ZINC 是一个汇总了化合物相关信息的公开数据库,是支持 2D、3D 化合物分子形式下载以及可进行快速分子查找、类似物搜索的服务网站,其分子量已经目前增长到近 20 亿,其中可购买的 13 亿化合物来自于 150 个公司共 310 个产品目录。尽管全球库存化合物的数量 (现在约为 1400 万) 每年仅增长百分之几,但按需定制化合物数量几乎呈指数增长,目前按需定制化合物的需求量已经增长至数百亿个分子,数年后将达到千亿级。ZINC20 (zinc20.docking.org) 新增百亿个按需定制化合物 (暂未添加到 ZINC 库中),这些化合物在骨架和分子多样性上都明显优于物理筛选数据库。
图 4. 按需定制化合物增长需求量 (NPMI 分析) VirtualFlow, 5 小时虚拟筛选 10 亿分子 一方面,蛋白结构井喷式被解析,合成方法学高速发展,化合物数据库几何级数增长,虚拟筛选成为众多药物化学工作者手中的利器。另一方面,云平台、AI 算法大放异彩。一个 CPU 上筛选 10 亿种化合物,每个配体的平均对接时间为 15 秒,全部筛完大概需要 475 年,而 VirtualFlow 平台调用 16 万个 CPU 对接 10 亿个分子仅耗时约 15 小时。更高的命中率,更快的计算速度,更强的迭代能力,虚拟筛选在药物研发进程中从未掉队。
MCE 拥有专业的虚拟筛选团队、高性能的计算机服务器、高度标准的数据隐私管理,可提供专业的分子对接、虚拟筛选服务。更有 40 余种高通量化合物库,涵盖 600 万有现货、可重复供应、结构多样、具有类药性的化合物,任您挑选。最终项目报告包含背景调研、流程概述、结果分析,更有符合文章发表要求的 2D/3D 分子对接图。
MCE 一站式药物筛选平台,虚拟筛选、化合物活性筛选、基于离子通道的化合物筛选,“快,不止一步”!2021.10.31 前下单,享受折后双倍积分 (MCE 开学季活动),快来 Pick。 MCE 的所有产品仅用作科学研究或药证申报,我们不为任何个人用途提供产品和服务。
注: 1、每个库中的分子数量实时变动,以上分子数量仅供参考,以官网实时数据为准。 2、更多数据库详见 MCE 官网。
参考文献
1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021. 2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11. 3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science. 4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073. 5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.
|