【原】GSK和Cerebras的合作｜高性能AI计算如何加速药物发现

智药邦 2022-03-23

展开全文

制药公司和生物技术机构通过传统的实验室和计算方法加速药物发现已经取得了重大进展，然而，他们才刚刚开始利用人工智能的潜力来更快地开发更有效的治疗方法。

2022年3月21日，Drug Discovery & Development网站发表文章 (由Cerebras副总裁兼产品主管Andy Hock撰写)，以最近GSK与Cerebras的合作工作为例，说明正确的人工智能计算平台如何能够赋能新的研究和新的方法，以及改变药物发现未来的可能性。

GSK和Cerebras的合作

GSK和Cerebras Systems的合作关系 (参见本公众号文章GSK和Cerebras合作开发表观基因组学模型)，是利用Cerebras的人工智能计算来加速GSK的药理学和生命科学研究。这种合作关系力量的最近一个例子，是GSK的研究人员与Cerebras合作，根据DNA序列和表观遗传数据开发的一个新的关于细胞-类型-特定基因调控和功能 (cell-type-specific gene regulation and function) 的AI模型。

GSK的新AI模型被命名为Epigenomic BERT或 "EBERT"，它基于一个名为BERT (来自Transformers的双向编码表示法) 的著名的自然语言处理 (NLP) 模型，这个模型最初由谷歌研究人员在2018年开发。虽然为人类语言和书面文本建立的模型用来表示基因调控和细胞功能似乎有悖常理，但在这种情况下，该团队采用的基因和其他生化序列数据可以被认为是生物学"语言"的方言。例如，GSK的EBERT模型可以预测细胞中的转录因子结合位点，从而为基因疗法的验证提供信息。

像这样的深度学习模型在加速药物开发方面有很大的潜力。然而，它们是计算密集型的，不容易使用传统的计算机集群进行工作。研究人员往往需要花费数周或更长时间来训练一个模型。此外，许多这样的模型训练实验需要反复进行，以确定最能代表潜在现象的模型参数组合。无论你是一个测试许多假设的研究人员，还是一个为商业项目建立模型的应用开发者，这都太长了。

GSK的EBERT模型就是这样一个模型。它采用了一个独特的大型数据集，结合了DNA数据，类似于之前的DNABERT (或"DBERT") 模型，并增加了来自IDEAS36数据库的表观遗传数据。然后，在这些数据集上训练的主要模型进行了额外的训练或微调(在为ENCODE-DREAM项目开发的转录因子结合数据集上)，以评估他们的新EBERT模型与早期DBERT相比在一组标准基准建模任务中的有用性。

所有这些训练运行的工程和计算要求非常庞大，这就是GSK与人工智能计算机系统公司Cerebras Systems合作的地方。Cerebras已经建立了一个新的处理器和新的计算机系统类别，可以将深度学习的速度提高几个数量级，远超由图形处理器组成的传统系统。

在Cerebras，GSK看到了一个加速他们使用人工智能和加快洞察力的机会，并采用了Cerebras CS-1计算机系统进行EBERT的工作。

GSK的EBERT工作由Cerebras CS-1系统支持并运行，该系统由Cerebras Wafer-Scale Engine（WSE）--世界上最大和最强大的深度学习处理器提供动力。CS-1中的第一代WSE拥有40万个可编程AI优化内核、40GB的快速片上存储器(on-chip memory)、以及一个可由软件配置的高带宽晶圆上内核到内核互连的大规模阵列--这是一台为EBERT这样的人工智能工作从头打造的机器。

Cerebras WSE-1，配备 NVIDIA的GPU以实现规模化

传统的AI系统需要大量GPU才能提供同等性能，尝试将工作负载分散到十几个或更多 GPU上也有弊端。

扩展人工智能模型需要大量的计算能力，处理元素之间的高通信带宽，以及大型内存池。大型GPU集群所固有的内存和通信瓶颈会使它们在编程时面临挑战，而且规模效率较低，这对研究人员快速测试许多新想法构成了固有的挑战。Cerebras CS-1系统让GSK避免了这个问题。

研究团队在2.5天内就在Cerebras CS-1上训练了EBERT，他们估计这个过程在16个节点的GPU集群上需要24天。在未来继续他们与Cerebras的工作，有机会以更快的速度发现潜在的更高精度的解决方案或其他新模型。最近宣布的第二代Cerebras系统名为CS-2，由一个新的85万核WSE-2提供动力，其人工智能计算性能是GSK目前工作中使用的CS-1的两倍以上。通过与Cerebras的持续合作，GSK将利用CS-2进一步加快EBERT训练和相关研究，为该领域一些最紧迫的问题带来新的模型、新的数据集和新的人工智能。

由于对CS-1系统进行编程比对同等的GPU集群进行编程花费的时间更少，研究团队可以花更多时间对EBERT模型进行微调以获得最佳性能。该模型的调整版本，即EBERT+，显示出比EBERT和DBERT都有很大的改进，见下图。

虽然从DBERT到EBERT到EBERT+的改进程度因转录因子和细胞类型而异，但所有的数据点都在同一方向。在一个额外的数据集上进行训练和微调新的EBERT模型都有助于提高模型的预测准确性。

下表显示了EBERT+在ENCODE-DREAM基准测试中与其他人工智能模型的表现。虽然它没有完全赢得基准，但EBERT+在总体上获得了第三名，并且在与专门为这些任务建立的模型进行评估时，明显赢得了13个分项测试中的4个第一名。

如果使用传统的硬件，将需要几天或几周的时间来确保EBERT+能够在多个GPU上正常扩展。而Cerebras CS-1系统则允许团队将这些时间用于微调模型，以提高精确度。

也许同样重要的是，GSK能够测试这样一个假设：添加表观基因组数据可以改善模型，并且EBERT+产生更好的结果。正如研究人员在他们的arxiv论文中提到的，"训练这些复杂的模型以前是一个计算上难以解决的问题"。此外，"Cerebras系统提供的训练速度使我们能够探索架构变化、标记化方案和超参数设置，而这在典型的GPU集群上是非常耗费时间和资源的"。在这里，CS-1实现了更快的计算，释放了新的实验能力和遗传医学的新建模能力。

思考人工智能在药物发现中的潜力

人工智能可以改变医学研究和治疗发展的方式之一是实现更准确的生物过程数字模型，这种现实世界过程的数字模型有时被称为"数字孪生"。有了候选疗法及其生物反应的准确数字模型，研究人员可以更容易、更迅速地探索治疗和结果的宇宙。扩大训练数据的规模并纳入来自多个数据集的信息可以帮助研究人员测试预测的结果，更有信心他们的模拟结果将符合现实。与上述EBERT工作一样，实现这项工作有重大的计算要求--这些要求可以由像Cerebras这样的特制人工智能系统独特地解决。

该领域的其他发现，与GSK和Cerebras的工作无关，但也说明了AI方法的长期潜力。例如，2020年，人工智能在没有人类研究人员协助的情况下，将halicin确定为一种新的抗生素。

2021年，德国生物技术公司Evotec宣布对通过将人工智能原理应用于药物发现而发现的一种新的抗癌药物进行临床试验。AlphaFold2和RoseTTAFold这样的人工智能模型可以从蛋白质的基础状态预测其三维折叠形状。

这些突破和成就推动了一个名副其实的淘金热。安进和赛诺菲等公司已经宣布与Generate和Exscientia等机器学习专业公司达成数十亿美元的交易。这两项交易都是为了加速药物开发，发现哪些分子化合物最有希望治疗各种疾病。

但是，进入这一领域的公司如果局限于传统的GPU部署，将面临重大瓶颈。预计为发现提供动力的巨大数据集和模型给GPU部署和开发它们的程序员带来压力。随着训练集的扩大，模型变得更加复杂，这个问题在未来只会越来越严重。

像Cerebras CS-1及其后续产品CS-2这样的人工智能加速器系统在这一发现过程中发挥着重要作用。Cerebras的方法的优势之一是，它使研究人员能够将更多的时间用于前沿科学，而减少在GPU集群中扩展工作负载的困难的时间。

这些突破突出了人工智能改变医学和医学研究的潜力。一个经过适当训练、足够详细的人工智能模型可以比任何实验室更快更有效地模拟潜在药物的分子结构，减少开发时间，帮助科学家发现和确定治疗某一特定疾病或状况的最有效化合物。这些突破对医学和药理学的长期影响是深远的。

Andy Hock是Cerebras的副总裁兼产品主管。他和他的团队领导硬件、软件和机器学习研究的产品需求和战略，与工程部门和客户合作，建立系统，从根本上加速人工智能的研究和企业应用。在此之前，Andy是谷歌（Née Skybox Imaging）Terra Bella项目的数据产品负责人，从卫星图像中为企业建立人工智能驱动的数据产品，并在Skybox Imaging担任高级技术总监。

参考资料

https://www./how-high-performance-ai-computing-is-accelerating-drug-discovery/