分享

BenevolentAI:构建强大的数据基础以加速药物发现

 智药邦 2023-02-24 发布于上海

数据是AI应用的基础。

AI制药初创公司是整合所有药物研发相关数据以发现其潜在价值的先行者。

本文介绍了AI制药初创公司BenevolentAI构建数据基础的方法和理念。

整合数据面临的问题

AI方法的开发,一定程度上可以划分为以模型为中心的AI开发和以数据为中心的AI开发。
在以模型为中心的AI开发中,数据集通常是固定的和给定的,重点是迭代模型结构或训练程序以提高基准性能。这推动了建模方面的大量研究进展,自动机器学习(AutoML)甚至可以自动进行模型设计和超参数调整。然而在现在的许多任务中,改进模型带来的增量收益正在减少。
事实上,以数据为中心的AI开发还很少被讨论。以数据为中心的AI开发强调了需要有系统的方法来评估、综合、清理和注释用于训练和测试AI模型的数据。
相关描述参见 Nat Mach Intel|李飞飞:为可信的人工智能产生数据的进展、挑战和机遇
在AI的具体应用场景中(比如药物发现),创建适当的数据集和数据管道以开发可靠、可信的AI模型,成为越来越迫切的任务。
然而数据集的整合和创建面临许多问题:数据来源繁多、数据类型复杂、已有数据集构建的目标不同、数据内容相互矛盾、数据集如何协调使用等等。
本文介绍了知名AI制药初创公司BenevolentAI(已上市,参见AI药物开发公司BenevolentAI将通过SPAC上市,估值15亿欧元)充分利用药物发现中的生物医学数据的方法和理念。

构建强大的数据基础

BenevolentAI从科学文献、内部和外部实验数据、外部结构化数据资源(如网络生物学数据集、药理学数据、化学结构、各种类型的组学数据、遗传学数据、临床试验数据等)中提取和处理数据,有目的地利用超过85个数据源的各种数据类型,以实现对生物医学知识的最全面表述。
BenevolentAI不仅对可用的数据集进行了标准化和组合,还开发了机器学习模型,可以提取不同类型数据之间的关系,使药物发现者能够拥有更大的视野并建立新的联系。

构建知识图谱

所有的努力是为了建立一个庞大而强大的"知识图谱"。BenevolentAI因此受到药企青睐(参见BenevolentAI与阿斯利康的合作实现第三个里程碑,获里程碑付款 )。
BenevolentAI的知识图谱整理了超过3.5亿的生物医学相关关系,这构成了其药物发现计划的基础。
药物疗效的靶点经常很难直截了当地去定义,而文献中对药物靶点的定义往往又很差
BenevolentAI于2017合作发表在Nat Rev Drug Discov的文章A comprehensive map of molecular drug targets强调了准确定义分子治疗靶点的一些持续挑战,展示了已批准药物分子靶点的综合图谱
建立知识图谱的数据基础的过程极具挑战性,要求研究人员从经常使用不一致的术语、包括不同属性、可能包含空白或其他不完整的数据集中提取关系。

从有限的数据中提取新的关系

此外,机器学习模型需要包括基因、化合物和疾病等生物医学实体之间关系的信息数据库。然而,仅仅依靠人工策划的和目前可用的数据库会导致生物关系的稀疏覆盖。因此,BenevolentAI开发了从不同的数据源中提取额外关系的方法,以添加到知识图谱中并用于模型构建。

识别用于机器学习模型的最佳数据

识别用于机器学习模型的最佳数据是一个多参数问题,因为它需要很好地理解多个数据来源的优势、劣势和差距。例如,我们必须考虑,如果一个给定的数据集缺少一个关键参数,而这个数据集在其他方面是高质量的,那么我们能否找到另一个提供这个参数的数据源,然后让这两个互补的数据集合作。
在这种情况下,即便尽最大努力,最终可能仍然会在选择数据来源时出现困难,有时不得不处理小数据集或未标记的数据。
为了解决这个问题,BenevolentAI建立了一个团队,该团队的工作重点是专门从有限的数据中学习,BenevolentAI发表了相关工作,主要目的是整合许多小型和异质的组学数据集,提高与疾病相关的组学数据的可用性。

学习有意义的数据表示,以解决批量效应校正和反事实推理等挑战,是包括计算生物学在内的许多领域的核心问题。

BenevolentAI在ICML 2022发表文章Contrastive Mixture of Posteriors for Counterfactual Inference, Data Integration and Fairness,提出了后验对比混合(CoMP)方法,在附加假设下证明了CoMP的反事实可识别性。

建立数据原则FAIR,增强数据的实用性

许多生物医学数据并没有被统一标准化为通用格式,这对于数据的互操作性和可重复使用性来说是一个主要障碍。即使是精心策划的数据集,也往往是为不同的目的而设计的,因此在描述数据的语言(本体)和结构上也会有所不同,这使得整合具有挑战性。
数据的可查找、可访问、可互操作和可重用 (Findable, Accessible, Interoperable and Reusable, 简称FAIR),对于实现数据的价值意义重大。2022年初,来自皮斯托亚联盟、罗氏、阿斯利康的专家介绍了FAIR方法的应用案例,以及如何将FAIR方法与数据质量评估方法一起部署,来最大限度地发挥生物医药数据的价值。参见 Drug Discov Today|罗氏/阿斯利康:通过FAIR+Q最大化生物医药数据价值
在FAIR中,"可查找"和"可访问"原则是密切相关的,它涉及到包含机器可读的元数据,并确保数据和元数据能够被机器学习工具轻松检索和操作。此外,数据必须是可互操作的(意味着它的格式化方式有利于与其他数据源和跨系统的整合),并为重用进行优化。为了实现这一点,元数据和数据应该被很好地描述,并使用一种共同的语言,以便它们可以在不同的环境中被复制和/或组合。
BenevolentAI积极采用FAIR数据原则,以改善数据格式和标准化。
BenevolentAI开发了模型和整合框架,这对于协调不同模式的数据(例如组学、文献和药理学数据)至关重要,这使得药物发现者能够发现由多种模式强化的联系,有助于假设的产生。为了提高效率和加快药物发现过程,BenevolentAI还自动和简化了数据摄取过程,以尽量减少特定数据集产生明显影响的时间,并改善用户的决策。

解码科学文献

科学文献对可用性提出了独特的挑战。尽管许多挑战必须由科学出版商和更大的科学界来解决,但BenevolentAI的团队正在开发从文献数据中提取更多关系的方法,然后将这些关系与其他数据源更好地整合,以创建一个可以应用分析和推理方法的基础。
此外,在科学文献上使用自然语言处理(NLP)方法会遇到一个问题,即不同的论文往往会提出一些表面上看起来相互矛盾的数据。例如,一个特定的蛋白质可能在一篇论文中显示为上调一个基因,但另一篇论文报告说同一蛋白质会下调该基因。在许多情况下,这是因为这些关系取决于生物背景,如它们发生的细胞或组织类型。因此,有必要在NLP模型中提取上下文。BenevolentAI正在与Helix合作解决这个问题,该集团是由Russ Altman教授领导的位于斯坦福大学的研究实验室。

建立数据驱动的工具和产品

即便知识图谱可以不断得到新数据的充实,然而,以一种对药物发现者来说容易获取和有用的格式提供这些数据,需要在知识图谱之上建立量身定做的工具和平台。这些工具向药物发现者展示最突出的数据,为他们提供支持性证据。

BenevolentAI经历了几次迭代,已经建立了良好的管道,将所有的东西(模型、数据和不同的工程组件)汇集到其平台。然而,这是一个持续的过程。需要跟踪系统的使用情况,以了解数据如何对药物发现者产生影响,反过来,药物发现者的反馈使BenevolentAI能够更新任何以前持有的关于数据的假设,并修改流程和改善系统。 

结论

BenevolentAI认为接触数据的最终目标是以最聪明的方式使用数据,以改善药物发现过程并实现更好的预测,因此必须不断创新以应对不同的挑战。模型和算法只有数据融入其中才是好的。必须不断完善和改进流程,才能确保数据基础尽可能地强大。

BenevolentAI的药物研发平台等信息参见 英国AI制药公司BenevolentAI

参考资料

https://www./news/building-the-data-foundations-to-accelerate-drug-discovery

https://proceedings./v162/foster22a.html

中国AI药物研发大会将于2023年5月在上海召开

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多