分享

Nature Biotechnology | 机器学习驱动创新药物靶点发现

 多组学转化网 2022-09-09 发布于天津

图片

当前,生物新药开发人员更多地通过对海量人类多组学数据的机器学习进行靶点挖掘,这种以人为本的“无假说”药物靶点发现也在逐步迈向临床。

2022年9月1日,Nature Biotechnology上一篇题为Machine learning powers biobank-driven drug discovery 的文章报道了机器学习驱动“无假说”创新药物靶点发现的前沿进展当前,越来越多的生物医药公司把赌注放在人工智能(artificial intelligenceAI)算法驱动的药物靶标发现上。2022年4月,抗衰老公司BioAge Labs宣布,给首个参与临床试验的患者用了一种治疗肌肉萎缩的药物BGE-105,该药物是基于人工智能分析一项研究人体衰老项目的临床和组学数据获得的。

传统药物开发临床前研究过程中,药企通常从既定的“假说”出发,寄希望于某些基因或蛋白与患者病理生理有关。但是,初创公司逐渐将机器学习(machine learningML)应用于海量的临床和分子数据收集,而不遵循先入为主的假说。“我们所做的绝大部分工作属于产生假说和无假说,”机器学习驱动药物发现的Celsius Therapeutics的CSO Jeanne Magram说。

人工智能驱动的靶标发现模式备受资本青睐
大量投资也在涌向人工智能驱动的模式。

2022年3月,专注于癌症和自身性免疫疾病精准药物开发的生物科技公司Celsius Therapuetics获得了8300万美元的投资,新一轮融资将帮助Celsius Therapuetics公司推进炎症性肠病(IBD)精准药物CEL383的临床试验开发。而CEL383正是基于对患者组织样本中单细胞数据的机器学习分析确定的基因靶标。

Verge Genomics利用人工智能发现神经退行性疾病的新靶点,于2021年12月从 Eli LillyMerck等投资者那里获得了9800万美元投资,并计划在今年启动一种针对肌萎缩性侧索硬化症(ALS)药物的临床试验。

今年1月,总部位于伦敦的Benevolent AI扩大了与阿斯利康(AstraZeneca)为期三年的合作范围,应用该生物技术公司“无假说”驱动的平台,发现了至少三个新的药物靶点。

早期阶段的玩家也在积极寻求资金支持。

去年10月,Immunai获得了2.15亿美元的C轮融资,利用人工智能挖掘患者海量的免疫学数据,确定新的药物靶点。

总部位于伦敦的Relation Therapeutics公司今年6月获得2500万美元的融资,通过主动图机器学习,Relation可以理解基因、蛋白质和药物之间的大量组合功能关系,可以更好地了解疾病的生物学并合理地发现新的治疗靶点。

机器学习驱动对多组学数据的“无假说”挖掘
所有这些药企的区别在于他们“以人为本”的方法。最初的重点是从患者数据中识别靶标,而不是从动物模型或高通量筛选和基于细胞的分析中筛选靶标。Verge公司的联合创始人兼首席执行官Alice Zhang表示:“我们构建平台的核心理念是为了让人类获益,我们需要以人类的数据为出发点。”

这本身并不是什么新鲜事。在过去的20年里,许多药物研发基于人类基因数据的驱动,大多数据来源于大规模人群的全基因组关联分析(GWAS),这些研究比较了患者队列和健康对照组的遗传特征。更重要的是,大量的研究生物样本库和国家公共平台或公司,如英国Genomics公司从15万人群中收集了表型和基因组数据,为药物开发提供了充分的支持。

大型生物制药公司也积极拥抱这种方式。例如,Amgen在2012年收购了冰岛初创公司deCODE Genetics,该公司积累了50万人的基因组和临床数据。Regeneron和阿斯利康还通过内部研究、与学术界的合作和与国际生物样本库合作,建立了超过100万人份的强大的分子和临床数据库。

大规模的数据,更容易发现对健康和疾病有重要影响的罕见基因变异。但是,随着这些数据库变得越来越大,并且包含了基因组之外的其他组学,包括转录组学、蛋白质组学,甚至代谢组学数据,给分析带来了挑战。这就是人工智能作为一种强大的工具的价值——尤其是当人们在数据中寻找不太明显的信号时。“在某种程度上,我们将完成所有容易实现的目标,也许这就是新方法更具变革性的地方,因为人工智能和机器学习很擅长洞察广泛的非常微妙的非线性信号的变量,” Regeneron Genetics Center 的Jeffrey Reid说。

这些信号可以包括与一种疾病相关的不同类型的数据。例如,Insitro开发了一个基于机器学习的平台,可以分析肿瘤组织病理图像、基因组数据和临床报告,以识别与特定病理类型有关的独特特征。最近宣布与英国基因组的合作,利用其数据库,通过人工智能促进靶点发现。在今年4月的英国基因组会议上,该研究所首席执行官Daphne Koller评论道:“通常,人类生物学数据挖掘的惊艳之处在于,可以获得一些临床医生尚未关注的新的发现。”

另一方面,与英国生物银行等数据库相关的医疗记录——来自50万人的医疗和基因数据的存储库——可以为分子数据提供必要的背景支持。Reid说:“对英国生物银行来说,这意味着一个非常广泛的范围——成像数据,甚至是一些蛋白质组学分析、医疗记录数据、问卷数据。” “有很多东西你的医疗记录无法记录到,比如你的父母是否患有阿尔茨海默氏症,这些可能与基因研究高度相关。”

机器学习还可以揭示疾病发生的复杂生理过程,并解释患者之间的疾病异质性。Magram说:“例如,可以在某个特定人群中发现某些特定有趣的细胞类型。”

国家层面发起的大规模研究获得的庞大队列,如Genomics EnglandFinnGen program,可以探索常见和罕见疾病。但对于一些初创公司来说,基于较小规模的群体研究可以更深入地了解特定的疾病。例如,Verge专注于神经退行性疾病,并收集了7000名患者的基因组、转录组和蛋白质组的大脑和脊髓组织数据。

香港的Insilico Medicine已经用人工智能识别肌萎缩性侧索硬化症中异常调节的基因表达谱和改变的通路,以发现靶点。在最近的一篇文章中,描述了如何从肌萎缩性侧索硬化症患者和对照队列公共数据库中,挖掘尸检获得的中枢神经系统样本和iPSC来源的运动神经元数据,发现了17个潜在药物靶点,包括11个新靶点。

总部位于伦敦的Alchemab利用机器学习分析癌症疗愈者能够抵抗疾病的原因。联合创始人兼CSO Jane Osbourn说:“我们基于的假说是,某些情况下,身体内产生了保护性自身抗体,通过人工智能分析个体中数千万个B细胞抗体的编码DNA序列,大约占B细胞总数的1%,Alchemab希望筛选得到保护性抗体有哪些?及其作用的细胞蛋白是什么?”

人工智能分析可用于各个阶段,包括开始时对生物医学数据库整理,寻找可用的关键数据。例如,Reid说,他在Regeneron的团队偶尔会进行“无假说”的“全面”分析。“你可以说,我想看下某种基因型和任何表型之间所有最重要的关联,就会得到对应的列表。”亦可用于特定的疾病表型和对应的基因亚群和通路,解释特定的分子病理特征。

Verge公司的科学家基于机器学习分析了肌萎缩性侧索硬化症患者的脊髓组织,并发现了溶酶体功能和疾病病理之间的联系Zhang说:“基于对调节互作、基因-基因互作的深度理解,我们可以获得一个潜在靶标的权重列表。”权重较高的靶标之一为磷酸肌醇激酶PIKfyve,该项目有望在今年晚些时候向美国食品和药品监督管理局递交新药研究申请。

为了寻找新的药物靶点Benevolent AI和阿斯利康梳理了实验和临床数据库,以及科学和医学文献,形成“知识图”,帮助获得基因和通路间的关系。阿斯利康基因组研究中心副总裁Slavé Petrovski开发了一种机器学习工具,通过对数十个生物数据库(包括人类蛋白质图谱和各种GWAS数据)、疾病特异性的临床和基因组数据整合分析,破译人类数据库中潜在的疾病相关基因。他说:“这是我们筛选权重较高、高可信度信息的方法,从而筛选出真正的生物学信号。”

人工智能还可以对单细胞亚型进行分类和描述。Celsius平台分析不同患者队列的单细胞转录组数据,区分特定细胞类型中的某些基因与特定表型的关系。对于IBD来说,Magram说:“其中一种细胞类型是细胞因子产生的关键驱动因素,属于炎症性单核细胞,所以我们重点关注这类细胞及哪些受体驱动了相应的生物学行为。”分析过程中发现了细胞受体TREM1蛋白,可选择性抑制IBD炎症而不损害免疫功能,目前该蛋白是该公司的首要靶点。

即使使用最强大的算法,人工智能的输出仅仅是迈出了靶标筛选的第一步。华盛顿大学计算机科学家在人工医学研究中使用人工智能和机器学习。“使用神经网络生成假说,然后将候选靶标提供给实验室验证,然后再次告知模型进行机器学习。”

人工智能和机器学习到底能带来多少真正的优势,尚待观察

“就像是一把螺丝刀和一把锤子,它们不会取代工具箱里的所有工具,”Zhang说。“有些事情他们真的很擅长;有些事情他们真的很不擅长。”人工智能辅助筛选的第一批靶标尚未在临床试验中验证。

除了Verge和 Celsius,Alchemab预计将在2023年底提交一份新药审查申请。阿斯利康的研究人员发现MAP3K15基因的功能缺失变异,可在不影响体重指数的情况下降低人们患糖尿病的风险。“道阻且长,”Petrovski说,“但这可能真的是一种具有疾病修饰作用的药物,而不仅仅降低血糖水平治疗糖尿病。”

即使人工智能只是药物开发者中的一种工具,Osbourn仍对其以新方式解决旧问题的能力充满期待。她说:“对我来说,关键是计算机算法的机器学习与某种深层次的跨学科专业知识的结合,只是为了确保我们每次都在学习,有点像前进中转动着的车轮。”“我很喜欢人工智能给我们的机会,希望我们能做一些不同的事情。”

参考资料

Eisenstein M. Machine learning powers biobank-driven drug discovery. Nat Biotechnol. 2022 Sep 1. doi: 10.1038/s41587-022-01457-1.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多