分享

FDA刘智超/童伟达|Tox-GAN:用AI方法替代动物研究,以毒理基因组学为例

 智药邦 2022-03-20

2021年12月31日,FDA-NCTR生物信息学和生物统计学部的刘智超、童伟达等人在Toxicological Sciences杂志发表文章,提出了一个基于深度生成对抗网络的框架,该框架从现有的动物数据中学习后,就可以根据药物的化学结构,生成多个时间和剂量条件下的体内转录组图谱,而无需额外的动物实验。

Tox-GAN是第一次尝试用生成对抗网络替代动物来探索毒理基因组学的研究。

研究背景

动物研究是生物医学研究、医药产品开发和监管应用中的一个重要组成部分。毒理基因组学(toxicogenomics, TGx)将新兴的基因组学技术融入到传统的动物模型中,在两个领域提供了前所未有的机会:根据单个基因活动推断毒性机制和根据基因表达谱开发安全性生物标志物。虽然体内的TGx对毒理学研究很有帮助,但在不同剂量和治疗持续时间水平上,分析数千种化合物对动物的毒理学影响是不切实际的。

全球正在努力实现毒理学和风险评估的现代化,为此开发了替代的毒性和风险评估方法,强调3R原则(Refine,Reduce和Replace,即改进、替代和减少)。学界正在积极研究开发新的方法,如体外方法和计算方法,以取代或减少毒理学和风险评估中动物的使用。

人工智能正在改变生物医学领域的格局。值得注意的是,各种基于深度学习的模型已在两个特定方向应用于毒理学:预测模型和生成模型。毒理学的大部分研究都集中在预测模型上,例如,卷积神经网络、深度神经网络、自动编码器等深度学习算法已被应用于预测不同的毒理学任务(如药物性肝损伤和心脏毒性)。然而,与预测模型相比,生成方法具有独特的优势,可以在不进行动物研究的情况下产生数据。例如在新药发现和单细胞测序中,已经有一些使用生成对抗网络(GAN)的生成模型的工作。

研究概要

在此,我们提出了一种基于人工智能的方法,能够在不使用动物的情况下,从动物研究数据中生成TGx数据。这种Tox-GAN方法是用一个深度生成对抗网络,来生成涉及多种剂量和治疗时间的TGx的基因活性和表达图谱。

利用Open Toxicogenomics Project-Genomics-Assisted Toxicity Evaluation System(Open TG-GATEs)的大鼠肝脏TGx数据,我们发现Tox-GAN是一种有效的替代方法,无需使用动物,就可以生成与它们相应的真实基因表达图谱高度相似的转录组图谱。强度(intensity)水平为0.997±0.002,差异倍数(fold change)为0.740±0.082。 

重要的是,我们成功地证明了Tox-GAN在上述TGx应用的两个方向的出色表现。在推断毒性机制中,Tox-GAN的结果与真实的基因表达数据在基因功能注解(Gene Ontology)方面的一致性超过96%。在生物标志物的开发中,我们用一组真实的和生成的基因表达谱的研究,来挑战一个根据真实基因表达数据开发的肝坏死生物标志物。得出的结论是两者之间的预测性能没有区别。

我们进一步举例说明了Tox-GAN在帮助基于化学结构的交叉参照(read-across)中的潜在效用。

据我们所知,我们提出的Tox-GAN模型是第一次尝试在不同的时间和剂量下生成体内转录组图谱,只需要提供化学结构就可以完成。总的来说,Tox-GAN在推断高质量的毒理学特征方面具有很大的前景,即使没有试验药物和动物治疗,也能推进现代化的毒理学范式。 

Tox-GAN的工作流程

图1. Tox-GAN的工作流程

(A)Tox-GAN模型开发。首先,四类信息(分子描述符、持续时间、剂量和训练集的高斯噪声)的联合信息作为生成器G的输入,用于生成转录组图谱。第二,用自动编码器从真实的转录组图谱中生成真实的转录组图谱的表征。第三,鉴别器D对生成的转录组图谱和真实的转录组图谱进行区分。这个过程直到鉴别器D不能区分生成的和真实的转录组图谱时才算结束。(B) Tox-GAN模型评估。优化的Tox-GAN模型被用来生成测试集的转录组图谱,并在强度、差异倍数和病理结果水平上进行评价。(C) Tox-GAN模型的应用。开发的Tox-GAN模型被应用于28天重复剂量的毒性研究、毒理学预测(如肝脏坏死预测)和交叉参照。 

Tox-GAN使转录组图谱推断成为可能

为了研究优化后的模型的性能,我们应用模型来推断测试集的转录组特征。t-SNE图描述了我们开发的2个Tox-GAN模型(Tox-GANintensity和 Tox-GANfoldchange)分别推断强度和差异倍数水平的转录组学特征。  

Tox-GANintensity和Tox-GANfoldchange模型所生成的转录组图谱和真实的图谱在高斯分布(Gaussian distribution)范围内是很匹配的。此外,Tox-GANintensity和Tox-GANfoldchange模型生成的转录组图谱与相应的真实图谱之间的皮尔逊相关系数(Pearson Correlation Coefficients)的平均值和标准差分别为0.997±0.002和0.740±0.082,表明所提出的Tox-GAN在强度和差异倍数水平上推断转录组图谱的能力很强。

图2 生成的和真实的转录组图谱的t-SNE可视化和概率密度。

蓝色和橙色代表真实的转录组图谱及其相应的生成图谱,分别来自(A)Tox-GANintensity和(B)Tox-GANfoldchange

生成的转录组图谱和相应的真实图谱有很高的相似性(0.997±0.002),表明Tox-GAN产生的转录组图谱可以很好地捕捉不同表型中的基因组反应。

图3 Tox-GANintensity生成的转录组图谱与它们相应的真实图谱在不同病理结果中的皮尔逊相关系数的分布。

Tox-GAN促进对毒性机制的理解

28天重复剂量毒性研究是标准的毒性实验设计之一,用于评估化合物的不良影响,并揭示在TGx中实验动物重复给药时的潜在毒性机制。高的皮尔逊相关系数表明,所提出的Tox-GAN对完善28天重复剂量毒性研究具有潜在的效用。此外,基因功能注解(Gene Ontology)分析结果之间的一致性表明,我们提出的Tox-GAN所产生的转录组图谱可以反映真实的生物学过程。

图4. Tox-GAN在28天重复剂量毒性研究中的应用。

(A)和(B)是在28天重复剂量毒性研究中,Tox-GANintensity和Tox-GANfoldchange分别生成的转录组图谱和其相应的真实图谱之间的皮尔逊相关系数。(C) Tox-GANfoldchange生成的转录组图谱与它们相应的真实图谱之间的基因功能注解术语。绿色、蓝色和红色的点分别表示同时生成的转录组图谱和其相应的真实图谱、仅生成的转录组图谱和真实的转录组图谱的基因功能注解术语。

Tox-GAN促进生物标志物开发

在测试集上,生成的转录组图谱和真实的转录组图谱的DNN模型之间获得了高相关性(r = 0.951),表明利用Tox-GAN促进预测性毒理学生物标志物开发的巨大潜力。

图5. Tox-GAN在肝坏死预测性毒理学中的应用。

(A)设计的肝坏死预测模型开发工作流程。具体来说,230个数据集被分为训练集和测试集,比例为8:2。根据两种情况开发DNN模型:真实的转录组图谱和由Tox-GANintensity生成的转录组图谱。测试集被进一步用来评估基于这两种情况的训练有素的DNN模型。(B)所开发的DNN模型在测试集中的性能指标与所提出的两种情况。浅黄色和蓝色代表方案1(即具有真实转录组特征的DNN)和方案2(即具有生成转录组特征的DNN)。(C) 两种方案产生的测试集中样本的预测概率值的相关性。

Tox-GAN帮助交叉参照

转录组图谱之间的相似性(在-0.22 ~ 0.45的范围内)比化学结构的相似性小得多,这表明基于转录组图谱的交叉参照(read-across)具有更好的分辨能力。此外,基于生成的转录组图谱与真实的转录组图谱非常相似,证明了Tox-GAN模型在基于生物图谱的交叉参照中的效用。

图6. Tox-GAN在交叉参照中的应用。

圆柱图显示了化学空间中Top10药物对、生成的转录组图谱和相应的真实图谱之间的相似性,分别以红色、蓝色和黄色表示。同时,还描述了药物对的化学结构。

总结和讨论

在许多领域的监管应用中,动物模型是评估毒性的组成部分。这些动物研究提供了宝贵的信息,并在临床试验开始前对新药的风险-效益评估中发挥了关键作用。同时,21世纪的毒理学正日益向3R(Refine,Reduce和Replace,即改进、替代和减少)动物用途转变。我们假设,过去积累的动物数据可以用人工智能来学习,以产生新的动物结果,而无需进行动物研究。

我们提出了一种新型的基于TGx的深度生成对抗网络模型(Tox-GAN),根据化学结构信息推断大鼠肝脏的转录组反应。所开发的Tox-GAN模型可以在强度和差异倍数水平上产生转录组图谱,与它们相应的真实图谱高度相关。此外,我们举例说明了Tox-GAN在促进对毒性机制的理解、加强预测性毒理学中的生物标志物开发(即肝脏坏死预测)以及帮助基于化学的交叉参照中的潜在效用。开发的Tox-GAN模型可通过https://github.com/XC-NCTR/Tox-GAN公开访问,可用于评估体内转录组情况,而不需要任何动物研究。就我们所知,Tox-GAN是第一次尝试用GAN替代动物实验来探索毒理基因组学。

在毒理学方面,消除动物使用是下一代毒理学的主要目标之一。然而,由于分布估计的性质,训练一个GAN模型是一项具有挑战性的任务。许多不同的GAN架构已被提出,以提高训练效果和目标特定数据的生成。在Tox-GAN中,除了采用集成的CGAN和WGAN-GP来实现特定治疗条件的推断外,我们还实施了一个后修饰策略,以选择优化的Tox-GAN,其生成的转录组曲线最接近相应的实际曲线。

预测性毒理学发展的挑战之一是用于机器学习模型开发的样本量有限。TGx研究通常只包含几百个化合物,这可能不足以为现实世界的应用开发一个强大的模型。已经有一些初步的努力,探索使用从永生化细胞系产生的转录组图谱的可能性。我们使用来自Open TG-GATEs项目的体内重复剂量转录组资料开发了Tox-GAN,进行概念验证。提出的Tox-GAN模型架构可以进一步利用,将生物信息从一种类型转化为另一种类型。例如,LINCS L1000数据包含了100多种不同细胞培养物和物种的20多万个化合物的转录组图谱,这是进一步扩展Tox-GAN模型以解决更多毒理学问题的绝佳资源。

本文提出的Tox-GAN模型旨在推断TGx的转录组图谱,以减少动物的使用。Tox-GAN模型可以被认为是一个虚拟的实验框架,以产生动物数据。因此,对未见过的化合物产生的转录组图谱与在TG-GATEs实验设计下通过实验产生的图谱相似。为了验证所提出的Tox-GAN模型,我们采用了另一个大型的TGx数据集(即DrugMatrix),推断结果令人鼓舞。

Tox-GAN模型可以继续改进。首先,可以进一步优化数以万计的超参数组合(hypermeter combinations)提高Tox-GAN模型的性能。在有限的计算资源下,我们无法实现对整个hypermeter空间的如此广泛的搜索,这需要云计算系统或大型超级计算机。第二,当前版本的Tox-GAN是为推断大鼠肝脏重复剂量数据的转录组谱而开发的。将化学信息转化为组织学病理图像的进一步工作将是值得研究的,并可能提供进一步减少动物使用的机会。最后,提议的Tox-GAN是通过整合CGAN和WGAN开发的。考虑到已经提出了不同的GAN架构,我们建议进一步研究这些不同的GAN架构,以进一步提高性能。

GANs为从有限的或没有信息的情况下推断新信息提供了一个独特的解决方案。我们的研究提供了一个机会,激励业界探索GAN模型的潜力,以解决不同的生物医学问题。

作者介绍

刘智超博士是FDA国家毒理学研究中心(National Center for Toxicological Research, NCTR)生物信息学和生物统计学部的人工智能研究团队(Artificial Intelligence Research Force, AIRForce)的技术负责人。背景横跨化学、生物学和计算机科学领域,他在设计、实施和部署先进监管科学的人工智能/机器学习解决方案方面领导了多个前沿项目。具体而言,刘博士开发了具有人工智能驱动的药物重定位的标准管道,以帮助业界从先进监管科学的角度寻求加速药物开发效率的最佳途径。此外,刘博士利用人工智能/机器学习解决方案,促进预测性毒理学的发展,其成功的模型被业界和监管过程所采用。

童伟达博士是FDA-NCTR生物信息学和生物统计学部主任。主要研究兴趣是将生物信息学和化学信息学、人工智能和机器学习以及数据分析应用于生物标志物的发现、药物安全和再利用、药物基因组学/毒物基因组学以及精准医疗。目前,他在他的部门指导几个FDA的关键任务项目:

监督和领导FDA领导的、社区范围内的微阵列和测序质量控制(MAQC/SEQC)联盟,分析新兴基因组学技术的技术性能和实际效用,重点是监管应用和精准医疗。

开发肝脏毒性知识库(LTKB),解决与药物性肝损伤(DILI)有关的药物安全问题。

设计和开发基于计算机的技术,以支持FDA在生物信息学和科学计算方面的努力(例如,开发FDA的基因组学工具ArrayTrack,以支持FDA的药物基因组学数据审查)。

为数字健康和药物重定位开发机器学习和人工智能。

对各种毒理学终点(如内分泌干扰物和致癌性)进行分子建模和QSARs。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多