【原】曾亥年｜AI药物发现实践与隐私安全计算

智药邦 2021-10-29

展开全文

数据是AI药物发现的基石。

基于机器学习算法的AI模型需要持续地通过数据来迭代、优化以提升其在药物研发中计算性能和预测结果的精度。近些年来，可用于算法训练的数据量在迅速增加，但总体来说，这些数据的质和量仍存在不少挑战，比如特定任务可用的数据过少、负样本数据缺失等，这些因素制约了AI药物发现领域的发展。另一方面，这些数据资源通常分布于不同的制药公司、生物技术公司、科研院校和医疗机构之中，对于他们来说，数据的产生与积累来之不易，代价高昂，如果按照传统的方法来分享数据，数据极有可能被数据使用方分享和留存，造成数据资产泄露和流失。这些涉及数据资产安全和隐私合规保护方面的问题，给AI药物发现公司与数据源方的数据协作带来了重重困难。

那么，近年来受到广泛关注的隐私安全计算技术是否可以安全、高效地促进数据的协作，赋能AI药物发现呢？

为此，智药邦对燧坤智能CEO曾亥年进行了专访，请他分享AI药物发现领域的进展与挑战，以及他们在数据协作实践中的成功经验。

曾总好！请先介绍下燧坤智能是一家什么样的公司？

曾亥年：燧坤智能是一家致力于运用人工智能和机器学习方法系统性赋能创新生物医药研发的新一代平台型技术公司。我们一直与生物医药行业内的同行们保持密切合作，以终为始不断开发优化AI模型，完善一体化AI+生物医药研发平台流程，解决生物医药行业面临的候选药物发现阶段成本高、成功率低、周期长及临床开发风险高等问题，研发具有全球竞争力的高价值候选药物。公司拥有算法模型等多项自主知识产权，是国家高新技术企业。

得益于团队优秀的人工智能与生命科学、化学、药学及医学的交叉学科背景，燧坤智能关注于利用人工智能技术助力生物制药和生命科学研究，以病人和临床需求为中心增加创新药物的可及性。公司的核心技术研发团队不仅在国际顶级期刊中发表近百篇高引用高影响因子的同行评议的前沿论文，且已与多家国内外知名药企建立合作，共同开发多个新药研发项目，以人工智能技术助力新药研发各个环节。

是否可以简单介绍下燧坤智能的主要特点？

曾亥年：我们有三个有别于其他AI制药公司的特点。首先，我们聚焦人工智能/机器学习+生物医药/生命科学，核心技术团队是AI与生物医药交叉学科的前沿技术的KOL及先驱探路人，执行团队深耕创新生物医药行业。其次，我们通过产学研结合重塑创新生物医药研发流程，同时开发具有降本增效及流程再造能力的模型和技术平台。再者，我们拥有强大的交叉学科能力及系统方法论的积淀。

你们在将AI技术应用于药物发现的过程中，有哪些重要案例，是否可以分享？

曾亥年：好的，这里我们有3个重要的案例，可以给大家介绍下。

第一个案例是针对小分子难成药靶点，我们在3个小时完成百万级别的化合物库虚拟筛选，仅测试100个分子，就获得3个全新结构、全新机制的小分子别构激动剂，提升一万倍的效率。

第二个案例是针对新冠，我们在1周时间内完成老药新用的筛选工作，针对2000万篇文献完成自动化标注以及候选药物的富集，通过CMap完成新冠老药新用的筛选，经过2个月完成实验验证工作，找到活性类似于瑞德西韦（美国紧急授权且应收数十亿美元）的老药。

第三个案例是我们在12个月不到的时间内获得超过全球大药企默克Merck和施贵宝BMS的更优的临床候选药物分子。

数据是AI药物发现的核心资源，那么，近年来受到广泛关注的隐私安全计算，是否是数据方对外合作的一个安全有效的方案？

曾亥年：数据是人工智能领域一个非常重要的组成部分，任何数据持有者对于数据的分享（无论是用于模型训练还是模型验证）都是比较谨慎的。我们在跟合作方去沟通交流的时候，合作方对于数据分享经常存在顾虑。

隐私安全计算，是我们对外合作的时候一个比较好的选择。我们有一些合作方是愿意分享数据的，但对于大多数不太愿意分享数据的合作方，我们就可以使用隐私安全计算来打消对方做数据协作的顾虑。

那这个方法它好在哪里呢？隐私安全计算可以同时保护模型和同时保护数据，也就是提供一个双向的保护。

使用隐私安全计算，我们在和数据持有方合作的时候，他们授权给我们使用的数据，我们并不能看到他们的明文数据，也就是数据可用不可见的形式，同时他们也看不到我们具体模型的代码，对双方的资产都提供了很好的保护。而在这个合作过程中，我们作为模型方，依然可以使用数据方的数据针对特定的靶点做虚拟筛选和化合物排序。

所以目前来看，隐私安全计算不仅是一个数据安全协作的解决方案，同时也是模型方对外合作的一个安全有效的解决方案。

是否可以介绍下，你们跟翼方健数在隐私安全计算方面是如何协作的，取得了什么样的成果？

曾亥年：在“2021人工智能药物研发论坛”上，关于跟翼方健数的合作，我们做过一些展示。

合作是这样的。首先，我们测试了翼方健数的隐私安全计算平台，确保这个平台可以运行，可以安全地进行模型运算；然后，我们将数据合作方引入到翼方健数的平台，数据方在这个平台上面，做了一系列的加密计算，拿到了运算结果。在这个过程中，数据方的数据资产和我们的模型代码均得到了充分保护。

燧坤智能和翼方健数的协作主要用到安全沙箱计算

本次协作，我们跟数据合作方开展的是针对一个传染病的新型抗生素的研究，看有没有可能针对一个靶点，去做一些全新的药物发现，也就是first in class。我们现在找出来一些目前认为还不错的候选药物，未来有很大的潜力可以开发成新药。

目前隐私安全计算在药物研发中的应用，有哪些最新进展？

曾亥年：隐私安全计算技术在药物研发的应用，除了刚才提到的安全沙箱计算以外，联邦学习是另一种常用的技术。联邦学习可以让多个数据协作方在不共享原始数据的前提下，共享数据的价值。在联邦学习中，参与数据协作的各方能够通过模型运算产生模型的参数梯度，每个数据节点会将此梯度回传到中心节点安全地聚合，通过一个最终迭代的过程，最终形成优于单个节点训练的模型结果。这个过程中，每个节点回传的是模型训练的中间结果，而不是原始数据本身。因此，联邦学习可以打通数据孤岛，使得多方数据安全协作、共同训练一个更好的模型成为可能。近期用到该技术的一个著名的案例是欧洲的MELLODDY项目。正是因为使用了联邦学习技术，使得高度竞争的10家知名大型制药公司之间的数据协作成为了可能。

在国内，除了联邦学习的应用外，有平台联盟的模式正在形成中。例如，由中国科学院上海营养与健康研究所等机构牵头成立的长三角生物医学产业大数据联盟，就采用了翼方健数的智数坊平台联盟技术。基于不同隐私计算平台达成数据联盟的方式，将极大地促进生物医学领域的数据协作，为AI药物发现的蓬勃发展提供了良好的数据底座。

AI药物发现领域，未来可能会有哪些突破性的事件，是否可以预计一下？

曾亥年：说到突破性的事件，AI在药物发现中的应用，可能已经有不同的突破了。

比如，阿斯利康目前的整个小分子药物的新药研发中，有一半都已经跟人工智能有关，这个在五年之前是不可能发生的事情。此外，核酸药物的发现过程中，也已经有大量人工智技术的应用。还有，谷歌的子公司DeepMind开发的AlphaFold，基本上已经解决了常见的蛋白质结构的预测问题。

接下来我们相信一定会有更多的类似的突破性事件，比如解决生物分子和生物分子之间的互相作用的动态的关系的算法。我相信这是未来率先需要突破的一个算法模型，有可能会在未来3-5年内实现。

未来，还会有越来越多的AI模型，能够真正的从降本增效变成流程再造，重塑药物研发的流程。这些也会是突破性的事件，我特别期待能够看到。

隐私安全计算对于燧坤智能这样的企业来说有哪些重要意义？

曾亥年：我站在一个用户或者说是合作方的角度，来回答一下这个问题。

我们现在跟翼方健数其实是非常深的合作，包括了我们在不断地测试他们的系统平台，去看他们整个平台能够实现的功能或者未来可以实现的功能。我们希望能够跟翼方健数能在整个人工智能加药物研发领域当中，为我们的数据方和模型方提供更有价值的隐私安全计算的平台。

当然，这个过程中有很多的工作要做。很多人都知道隐私安全计算这个概念，但是你要把它整合到业务流程里面，让数据方相信，让模型方愿意使用这个平台，还有很多工作。其中涉及到大量的解决方案的技术细节需要去尝试、去测试，需要去处理可能出现的各种技术上的挑战。

在合作过程中，我们向翼方健数详细介绍了整个业务流程，一起探索了哪些方面可以做优化。只有把这个业务流程跑通，才能实现应用场景下的巨大价值。我们可以跟外部更多的数据方（包括生物医药企业，甚至是医院、多组学数据公司）一起合作，为行业创造巨大的价值。因为模型可以变得更好，模型又能够反过来为大家提供更好的成果，带动更多有价值的数据的产生，整个生态圈的协作就能够蓬勃发展起来了。

对于燧坤智能这样的企业来说，隐私安全计算让我们能够给客户提供更多的选项，这是非常重要的。如果把视野扩大一些，隐私安全计算对于整个AI+创新，甚至是对于整个创新生物医药的大生态系统来说都具有革命性意义。