来源:DeepMind
7月28日,DeepMind公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网报道,DeepMind的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称,在超过2.14亿个预测结构中,约35%与实验确定的蛋白质结构一样高度准确,另外45%的预测结构也到达了很高的可信度,能用于后续多种研究和应用。 从建立之初,这个数据库就是免费开放的,如今已成为科学家的必备工具。据EMBL-EBI数据,迄今已有超过1000篇科学论文引用了AlphaFold数据库,来自190个国家的50多万名研究人员访问过该数据库,查看了超过200万个蛋白质结构。目前,DeepMind测定的这些蛋白质结构也被整合到其他的公共数据库中,将为数百万研究人员的日常工作提供参考。 相比于1年前,AlphaFold数据库中的蛋白质结构数据量增加了600多倍,涵盖了物种也达到了100万种 AlphaFold数据库就是蛋白质结构的“谷歌搜索”,要认识某个蛋白质结构只需在数据库搜索可立即获得结果,这可以让科学家能够集中精力加快实验研究。按照DeepMind创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)的看法,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。他在DeepMind的官方博客中称,从抗击疾病到开发疫苗,AlphaFold已经取得了令人难以置信的进展,而这只是开始。 2亿个数据有什么用从科研人员对该数据库的热情就可以想见其对科学研究的价值,仅DeepMind在《自然》杂志上发表的2篇论文已被引用超过4000次。可以说,AlphaFold实现了AI在生命科学领域的雄心。斯克利普斯研究所创始人埃里克·托普(Eric Topol)的看法是,AlphaFold是AI在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。 托普说,AlphaFold已经加速并促成大规模的蛋白质结构被破解,包括核孔复合体的结构,“我们可以期待每天都有更多的生物之谜被揭示”。事实上,按照哈萨比斯的说法,这个数据库的价值可以覆盖从了解疾病到保护蜜蜂,从解决生物学难题到深入研究生命起源本身,对解决一些重要的问题,例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等,都将产生重大的影响。 该数据库已经在疟疾的治疗中发力了。今年5月,牛津大学的生物化学教授马修·希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣布,他们已经使用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的结构,并找出能阻止疟原虫传播的抗体可能结合的位置。 希金斯在接受《卫报》采访时称,他们之前采用蛋白质晶体学技术来计算这种分子结构,但多年来一直没有取得突破,因这种蛋白质的结构动态性强并且会到处移动,而在将AlphaFold预测的结构模型与实验数据结合后,他们顺利地解决了这一难题。他们准备将最新的研究成功用于设计优化的疫苗,以诱导感染者产生最有效的、能阻断疟疾传播的抗体。 目前借助于AlphaFold,已经发表的蛋白质结构(图片来源:DeepMind) 而环境研究,也会因为这一数据库而受益。据《卫报》,英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰·麦吉汉(John McGeehan)正在使用AlphaFold来识别自然界中的酶的结构,以期找到能消化和回收塑料的酶。他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能。 DeepMind表示,该公司在与其他机构和组织合作时,会优先考虑最富社会效益的项目。他们与被忽略疾病药物研发组织(DNDI)合作,帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响贫困地区的疾病的治疗,以及对世界卫生组织(WHO)列为优先研究项目中的关键蛋白质结构进行预测,包括麻风病和血吸虫病等。 从量变到质变如果把AlphaFold看作一个人,它大概会是成长飞速的天才少年。 DeepMind隶属于谷歌的母公司Alphabet,击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品。2016年,击败李世石后不久,DeepMind成立了针对“蛋白质折叠问题”的研究团队。到2018年,DeepMind首次公开了AlphaFold的预测结果,其成果发表在《自然》上。 2020年11月30日,AlphaFold2以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁,其预测的蛋白质结构已达到原子精度,可与实验测得的结构相媲美。要知道,多年来,科学家只能通过核磁共振、X射线和冷冻电镜技术来确定蛋白质的结构。他们需要为了一个蛋白质结构反复试验,其间花费了数年时间和巨额费用。2005年,《科学》杂志在创刊125周年之际将预测蛋白质结构列为125个最具挑战性的科学问题之一。因此,AlphaFold的这次胜利被视为解决了50年来生物学领域的一个重大挑战。 在中等难度的蛋白结构预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩。来源:DeepMind 到了2021年,DeepMind决定把AlphaFold的力量交到世界手中,于是在当年的7月15日在《自然》上开源了AlphaFold的代码以及60页的详细补充信息。 就在1周后,DeepMind在《自然》上又发表了对整个人类蛋白质组的结构预测结果,且使当时已知的高置信度蛋白质结构的数量增加了一倍。与此同时,DeepMind还联合EMBL-EBI推出了AlphaFold数据库,其中囊括了人类蛋白质组以及另外20种模式生物体内超过35万个蛋白质结构。 而又于11月,DeepMind又更新了AlphaFold2的源代码,以解读多链蛋白质复合物,这显著提高了预测蛋白质之间相互作用的准确性。2022年,AlphaFold数据库迎来了库容的数量级增长。这个“蛋白质宇宙”就拥有了独一无二的强大力量。 更高的期待当然这个数据库并非万能,科学家有更高的期待。 伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称,AlphaFold在蛋白质折叠方面仍有问题需要解决。AlphaFold只能基于已知实验数据进行预测,但对于无法折叠成稳定3D结构的蛋白质就无能为力了,这些蛋白质通常具有不稳定和不可预测的折叠模式。 伊利诺伊大学厄巴纳-香槟分校计算生物学家彭健称,AlphaFold可以帮助科学家重新评估以前的研究,以更好地了解疾病是如何发生的。不过他提示说,对于具有相关信息但认识不足的罕见蛋白质,AlphaFold的预测质量也可能不那么高了。 哥伦比亚大学系统生物学家穆罕默德·库莱希(Mohammed AlQuraishi)在接受据《麻省理工科技评论》采访时称,许多蛋白质会受基因突变和自然等位基因的影响,但它们的结构会如何改变,这个数据库不会解决。他说,“希望能准确模拟蛋白质突变体的工具很快会出现”。 库莱希等人参与创办了非营利性人工智能研究联盟OpenFold,他们在AlphaFold数据库基础上做了进一步改造。2022年6月28日,OpenFold发布了其开发的第一个能预测蛋白质结构的AI模型,该模型是基于谷歌DeepMind和华盛顿大学蛋白质设计研究所的工作而开发的。OpenFold内部评价是,该模型比AlphaFold2平均精度更高,运行时间更快。 不过,山东大学数学与交叉科学研究中心教授杨建益(从事蛋白质结构预测)告诉《环球科学》,AlphaFold2已经很好用了,部署也很简单,对硬件要求并不高,有图形处理器(GPU)就够,很多公司和高校都在用,速度还很快。他说,“我个人并不太看好OpenFold,复现AlphaFold2的训练过程意义并不大,我自己也测试过OpenFold,它的性能并不如AlphaFold2。” 记者:孙滔、审校:clefable 参考链接: https://www./articles/d41586-022-02083-2 https://www./about/news/technology-and-innovation/alphafold-200-million/ https://www./blog/alphafold-reveals-the-structure-of-the-protein-universe https://www./technology/2022/jul/28/deepmind-uncovers-structure-of-200m-proteins-in-scientific-leap-forward https://www./article/2330866-deepminds-protein-folding-ai-cracks-biologys-biggest-problem/ https://www./2022/07/28/1056510/deepmind-predicted-the-structure-of-almost-every-protein-known-to-science/ |
|
来自: 独角戏jlahw6jw > 《AⅤ》