【原】GSK和Cerebras合作开发表观基因组学模型

智药邦 2022-03-06

展开全文

2022年1月27日，GSK官方网站发表文章，介绍了GSK与Cerebras在表观基因组学模型开发方面的合作。

与Cerebras Systems的合作，首次实现了用大型数据集 (以前令人望而却步) 来训练复杂的表观基因组学模型。

前言

人工智能有可能改变药物发现的速度、复杂性和安全性，产生更好的药物和疫苗。人工智能模型可以帮助我们理解支配基因调节和功能的生物"语言"。理解这种语言是找出药物应该针对细胞中的哪种蛋白质的关键。

人工智能在GSK发挥着关键作用，GSK在人类遗传学、功能基因组学和人工智能的交叉领域进行了大量投资。人工智能使我们能够分析和理解来自基因数据库的数据，这意味着我们可以采取一种更具预测性的方法。有力的证据表明，有基因验证的药物靶点的成功可能性是没有基因验证的药物靶点的两倍。这对患者来说是个好消息，因为我们能验证的靶点越多，我们能制造的潜在药物就越多。

这项工作的一个令人兴奋的结果是我们的新论文"Epigenomic Language Models Powered by Cerebras"，它描述了一种新技术，使我们能够为基因数据训练比以前更复杂的人工智能模型。

为了做到这一点，我们使用了一些高级的人工智能计算能力 - Cerebras CS-1系统，它由有史以来最大的计算芯片提供动力。

在药物发现中使用表观基因组学

人类是令人难以置信的复杂生物体：人类基因组包含约3万个基因。我们曾经认为基因组是一个完整的蓝图，但这幅图是不完整的。这些基因如何转化为大约200种不同类型的细胞，这些细胞被组织成由300亿个细胞组成的有知觉的、可移动的生命体，这要复杂得多。

我们知道，例如，具有相同基因的人的免疫系统的工作方式并不相同。有些人生病，有些人不生病。我们知道，同样的药物可以对人产生不同的影响。最大的问题是，为什么？

答案涉及细微的差别，如我们的DNA折叠方式，它允许一些基因被表达，而其他基因不表达。不同的细胞以不同的方式折叠我们的DNA，在被称为组蛋白的物质上。这意味着在不同的细胞类型中，DNA的一些部分是开放的，一些则紧紧包裹在这些组蛋白上。开放的DNA部分允许基因被表达，而被包裹在组蛋白上的部分的基因则不能被表达。细胞通过修改DNA代码来决定DNA的哪些部分应该打开或关闭，我们称这些表观遗传修饰（modifications epigenetic, epi意为 "above"，而genetic指的是基因组）。我们把修改后的序列称为表观基因组。

与DNA序列不同，细胞所做的表观遗传修饰是可逆的。了解表观基因组是了解哪些基因可以在身体的哪些部位表达的关键。我们需要了解表观基因组，以帮助我们理解我们在英国生物库等数据库中拥有的遗传数据。这些生物库为我们提供了关于哪些基因可能参与疾病的线索，而表观遗传学帮助我们了解一个基因可能在哪些细胞类型（即皮肤、眼睛、肝脏）中表达。这些信息与其他数据一起帮助我们确定我们的药物应该做什么，它应该针对哪些基因来治疗一种疾病。

加快进程

试图编写一个计算机程序来准确地从第一性原理描述这些复杂的过程将是一项艰巨的任务，甚至可能是徒劳的。幸运的是，人工智能给了我们一个捷径。我们有足够的现实世界中的表观基因组学影响的例子来教计算机做同样的事情，创建一个模型，然后可以用来预测许多重要的生物过程。这使我们更接近于那个完美的数字孪生。

用于建立自然语言处理系统的算法（即搜索引擎和机器翻译的基础），也可用于对蛋白质和DNA等生物结构进行建模，这是科学的一个快乐的意外。在这项工作中，GSK的研究人员正在重新利用一个被称为BERT（因为 "Bidirectional Encoder Representation from Transformers"说起来太长了）的神经网络模型系列。这个新模型被称为 "表观基因组BERT"，简称EBERT。

我们知道，更复杂的NLP模型，使用更多的数据进行训练，会给出更准确的预测。我们的假设是，在我们的领域也会如此：表观基因组模型将比更简单的仅有基因组的模型给我们提供更准确的遗传验证。

然而，这是人工智能生活的一个不幸的事实，更多的复杂性不可避免地需要更多的计算能力。到目前为止，使用大规模数据集来训练模型是不现实的。使用由图形处理单元（GPU）集群组成的传统计算系统需要太长时间。而且建立更大的集群也没有什么帮助：有一个收益递减法则（law of diminishing returns）在起作用，这意味着试图将速度提高10倍可能需要数百个额外的GPU和一个重大的重新编程工作。Cerebras有一个更好的方法。

Cerebras系统的核心是晶圆级引擎（Wafer-Scale Engine）。GSK的引擎拥有高达40万个人工智能优化的计算核心。它们被安置在一个巨大的芯片上，运行一个程序。这并不奇怪，这比试图将一个程序分解到许多较小的处理器中，并在它们之间有漫长而缓慢的通信路径要快。

正如论文所说："Cerebras提供的训练速度使GSK能够探索架构变化、标记化方案和超参数设置，而在典型的GPU集群上，这种方式将耗费大量的时间和资源。"

速度有多快？我们能够在大约2.5天内完成EBERT模型的训练，而使用16个节点的GPU集群估计需要24天。训练时间的大幅减少使得新模型在现实世界的研究环境中实际有用，这非常令人兴奋。

现在，我们有计算能力来训练我们的新模型，我们可以测试我们的假设，问：新模型是否有效？EBERT是否给我们提供了更准确的遗传验证？答案就像我们领域中的其他事情一样，是复杂的。在一个名为ENCODE-DREAM的行业基准中，经过微调的EBERT模型在13个数据集中的4个取得了最高的预测准确性。这是一个强大的性能，所以结果是非常有希望的。

未来的工作

这项工作的下一步是什么？更多的速度!

在最新的 CS-2 系统上进行的测试（其计算核心和内存是 CS-1 的两倍以上）证明了其较小的 EBERTBASE 模型的预训练吞吐量翻了一番。此外，我们已经证明 CS-2 将能够以与 CS-1 上的 EBERTBASE 大致相同的吞吐量预训练他们的 EBERTLARGE 模型。我们已经迫不及待了。

晶圆级计算新贵 Cerebras

Cerebras正在彻底改变深度学习的计算方式。

Cerebras是一个由先锋计算机架构师、系统工程师、软件工程师和ML研究人员组成的团队。共同建立了一个新的计算机系统，从第一性原理出发，以加速人工智能和改变人工智能工作的未来为唯一目标。

晶圆级引擎（WSE）是Cerebras深度学习计算机系统的革命性中央处理器。第二代WSE（WSE-2）为Cerebras的CS-2系统提供动力：它是有史以来最大的计算机芯片，是地球上最快的人工智能处理器。

参考资料

https://www./

https:///chip/