分享

蛋白质与高通量药物筛选化合物库 | MedChemExpress

 medchemexpress 2023-03-13 发布于上海

天下苦“蛋白质三维结构”久矣


天然蛋白质具有特定的三维空间立体结构。一生二,二生三,三生空间结构,构成蛋白质肽链的氨基酸线性序列 (一级结构) 包含了形成复杂三维结构所需要的全部信息。理论来说,已知蛋白质氨基酸序列组成,就能轻松获得蛋白质三维结构,但现实远没有那么简单。目前已知氨基酸序列的蛋白质分子约有 2.1 亿个,但截至今天 RCSB PDB  (www.rcsb.org) 上收录的被实验解析的蛋白质三维结构仅有 18,1295 个,不到蛋白质总数的 0.1%。究其根本,通过 X 射线衍射、核磁共振或冷冻电镜等方法获得蛋白质三维结构,哪个不耗时费力、需要大量资金投入?另,计算机预测蛋白质结构有诸多限制,SWISS-MODEL 要求序列同源性 > 30%,I-TASSER 要求序列能穿到现有结构,ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白质三维结构”久矣!直到 AlphaFold2 横空出世。

1. 蛋白的一、二、三、四级结构


AlphaFold2 横空出世

2020 年末,AlphaFold2 (DeepMind 公司开发的 AI 程序) CASP14 (14 届蛋白质结构预测比赛) 中将蛋白结构预测准确性从 40 分拔高到 92.4 分,实现了原子精度或者接近原子精度的结构预测,震惊生物界。

2021 7 16 日,DeepMind 团队在 Nature 上公布了 AlphaFold2 的源代码。仅一周后,DeepMind 团队再发 Nature,公布 AlphaFold 数据集,再次引爆科研圈!AlphaFold 数据集覆盖几乎整个人类蛋白质组 (98.5% 的所有人类蛋白),还包括大肠杆菌、果蝇、小鼠等 20 个科研常用生物的蛋白质组数据,蛋白质结构总数超过 35 万个!而且,数据集中 58% 的预测结构达到可信水平,其中更有 35.7% 达到高信度!

2. Alphafold 数据集网站
(免费开放网址:alphafold.ebi.ac.uk)


深究 AlphaFold2 计算模型发现,AlphaFold2 没有借鉴 AlphaFold 使用的神经网络类似 ResNet 的残差卷积网络,而是采用最近 AI 研究中兴起的 Transformer 架构,其中与文本类似的数据结构为氨基酸序列,通过多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。从模型图中可知,AlphaFold2 AlphaFold 不同,并没有采用往常简化了的原子间距或者接触图,而是直接训练蛋白质结构的原子坐标,并使用机器学习方法,对几乎所有的蛋白质都预测出了正确的拓扑学的结构。统计 AlphaFold2 预测的结构发现:大约 2/3 的蛋白质预测精度达到了结构生物学实验的测量精度。

3. AlphaFold2 计算蛋白三维结构模型图


ZINC20 新增数十亿分子

AlphaFold2 给药物研发带来的革命性变化不言而喻:AlphaFold2 能低成本预测疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。而化合物数据库作为虚拟筛选的重要工具,同样决定了小分子药物研发的速度和质量。

ZINC 是一个汇总了化合物相关信息的公开数据库,是支持 2D、3D 化合物分子形式下载以及可进行快速分子查找、类似物搜索的服务网站,其分子量已经目前增长到近 20 亿,其中可购买的 13 亿化合物来自于 150 个公司共 310 个产品目录。尽管全球库存化合物的数量 (现在约为 1400 万) 每年仅增长百分之几,但按需定制化合物数量几乎呈指数增长,目前按需定制化合物的需求量已经增长至数百亿个分子,数年后将达到千亿级。ZINC20 (zinc20.docking.org) 新增百亿个按需定制化合物 (暂未添加到 ZINC 库中),这些化合物在骨架和分子多样性上都明显优于物理筛选数据库。

4. 按需定制化合物增长需求量 (NPMI 分析)

VirtualFlow, 5 小时虚拟筛选 10 亿分子

一方面,蛋白结构井喷式被解析,合成方法学高速发展,化合物数据库几何级数增长,虚拟筛选成为众多药物化学工作者手中的利器。另一方面,云平台、AI 算法大放异彩。一个 CPU 上筛选 10 亿种化合物,每个配体的平均对接时间为 15 秒,全部筛完大概需要 475 年,而 VirtualFlow 平台调用 16 万个 CPU 对接 10 亿个分子仅耗时约 15 小时。更高的命中率,更快的计算速度,更强的迭代能力,虚拟筛选在药物研发进程中从未掉队。

MCE 拥有专业的虚拟筛选团队、高性能的计算机服务器、高度标准的数据隐私管理,可提供专业的分子对接、虚拟筛选服务。更有 40 余种高通量化合物库,涵盖 600 万有现货、可重复供应、结构多样、具有类药性的化合物,任您挑选。最终项目报告包含背景调研、流程概述、结果分析,更有符合文章发表要求的 2D/3D 分子对接图。

MCE 一站式药物筛选平台,虚拟筛选、化合物活性筛选、基于离子通道的化合物筛选,“快,不止一步”!2021.10.31 前下单,享受折后双倍积分 (MCE 开学季活动),快来 Pick。

MCE 的所有产品仅用作科学研究或药证申报,我们不为任何个人用途提供产品和服务。

注:
1、每个库中的分子数量实时变动,以上分子数量仅供参考,以官网实时数据为准。
2、更多数据库详见 MCE 官网。



参考文献

1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021.
2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.
4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.
5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多