分享

Adv. Intell. Syst. | 青岛大学发表基于深度学习和宿主信息嵌入的微生物组多标签疾病检测研究

 宏基因组 2023-10-02 发布于北京

基于深度学习和宿主信息嵌入的微生物组多标签疾病检测

Host-Variable-Embedding Augmented Microbiome-Based Simultaneous Detection of Multiple Diseases by Deep Learning

Research Article, 2023-06-22, Advanced Intelligent Systems

DOI:10.1002/aisy.202300342

原文链接:https://onlinelibrary./doi/10.1002/aisy.202300342

第一作者:Shunyao Wu, Zhiruo Li

通讯作者:Xiaoquan Su

主要单位:青岛大学计算机科学与技术学院

- 摘要 -

微生物组已成为一种检测或预测疾病的重要指标。然而,以往的研究通常将每个样本仅标记为患有某一种特定疾病(或健康对照),忽视了实际队列中广泛存在的并发症或共存病。例如,一名患者可能同时患有多种疾病,往往会干扰健康状况的检测。此外,宿主表型(如生理特征和生活方式等)也会改变微生物组的结构,但这些信息尚未在数据模型中得到充分利用。为了解决上述问题,我们提出了一种名为Meta-Spec的深度学习方法。该方法采用深度神经网络(DNN),将经过精炼的宿主变量与微生物组特征进行编码和嵌入,从而实现了同时检测多种疾病的能力。在多个人群队列上的实验表明,Meta-Spec筛查疾病方面的表现优于常规机器学习策略。更重要的是,Meta-Spec成功检测出了其他方法常常忽视的共存病。此外,Meta-Spec具有很高的可解释性,能够从宿主变量和微生物中捕捉到影响疾病检测的关键因素。这些工作提高了基于微生物组疾病筛查的可行性和灵敏度,让个性化医疗走向实际应用迈出了重要一步。

关键词:

微生物组(microbiome),多标签分类(multi-label classification),宿主变量(host variable),深度学习(deep learning),疾病检测(disease detection)

- 介绍 -

人体微生物组的动态变化与多种疾病密切相关。近年来,微生物组数据的数量和多样性不断增加,促使机器学习被广泛应用到基于微生物组的疾病检测和识别。通常,机器学习分类器采用不同健康状况下微生物组的分类学特征或功能信息作为特征,并构建分类模型来预测新样本的状态。在此场景下,用于研究的微生物组队列通常是经过精心设计的,每个样本只标注一种确定的状态(“标签”):要么健康,要么患有某一种特定的疾病。这样做可以减少实验设计中复杂因素的干扰,促使“单标签分类”成为微生物疾病检测的传统策略(图1a)。然而,在实际队列中,并发症或共存病很普遍(图1b)。例如,在美国肠道项目(American Gut Project;AGP)中,约61%的患者被诊断患有至少两种疾病。我们最近的研究表明,尽管患有并发症的肠道微生物组与患有单一疾病的肠道微生物组具有共同的生物标记物,但它们在分布上存在显著区别。因此,并发症和共存病会严重干扰疾病的检测。

另一方面,人类本身的生活方式和生理变量与各种疾病有着密切联系,这也会干扰基于微生物组的健康状态识别。例如,年龄是心血管疾病的主要风险因素之一,也与克罗恩病有关。此外,体形和体重指数可以作为代谢综合征和Ⅱ型糖尿病的预测因子。这些宿主变量提供了有助于疾病预测和诊断的重要信息。然而,许多现有的机器学习分类器仅关注分析微生物组特征,如微生物多样性、丰度和组成,却忽视了宿主信息数据在疾病筛查中的潜力。尽管这些微生物特征在疾病筛查和预测中非常重要,但它们并不是判断疾病风险的唯一因素。

为此,我们提出一种利用微生物组数据和宿主信息进行多标签疾病分类的深度学习方法Meta-Spec。Meta-Spec基于MMoE (Multi-gate Mixture-of-Experts)模型和交叉网络,能够通过整合基因型数据(从序列中提取的微生物组特征)和表型数据(宿主变量)同时检测多种疾病。此外,与其他缺乏可解释性的神经网络不同,Meta-Spec可以通过在状态分类中的相对贡献来量化每个特征因素对每种疾病检测的重要性。在多个队列上的实验结果表明,我们的方法在共存病筛查和疾病相关性捕获方面的表现优于传统机器学习分类策略,同时还能深入了解每种特定疾病的潜在机制。

- 结果 -

1. 基于多任务深度学习的多标签疾病分类模型

图1c展示了用于多标签分类的Meta-Spec框架。在模型训练过程中,微生物特征(例如生物学分类、ASV、OTU、功能基因家族等)的丰度被视为密集特征,而宿主变量(例如生理特征和生活习惯)则被转化为高维嵌入向量,代表稀疏的分类特征(详情见实验部分)。然后,全连接层将密集特征和嵌入向量合并,随后,通过MMoE层来学习微生物组在疾病之间的关联性,并且使用两个交叉网络分别用于捕获微生物组之间和宿主变量之间的相互作用(详见实验部分)。最后,塔网络结合MMoE和交叉网络的输出来计算每种疾病的患病概率。这样,使用新的微生物组数据和相应的宿主信息数据,Meta-Spec分类器生成一个二进制数组来总结预测结果,这个二进制数组中每一位代表一种特定疾病的存在与否(图1b、c)。

2. 深度神经网络很大程度改善了多标签疾病分类

我们使用来自美国肠道项目(American Gut Project)的数据集1(表1;详见实验部分),评估了Meta-Spec在多标签疾病检测中的效果。为了尽量减少地理位置对肠道微生物组的影响,我们仅使用来自美国本土的队列。该数据集包含5308名受试者,其中包括3767名患者和1541名健康对照组。我们过滤掉了侵入性的检查信息(如血液等),只保留了问卷调查中的宿主信息。该数据集中的每位患者都被诊断至少患有自身免疫性疾病、肺部疾病、甲状腺疾病、癌症、炎症性肠病(IBD)、心血管疾病和自闭症谱系障碍(ASD)等七种疾病中的一种。尽管之前的研究已经证明了肠道微生物组与这些目标疾病之间存在关联,但多种疾病的综合影响会严重影响对疾病状态的检测。我们采用五折交叉验证进行多标签疾病分类,并将Meta-Spec和其他四种机器学习分类器进行比较。四种机器学习分类器包括逻辑回归(LR,一种典型的线性模型)、随机森林(RF,常用于微生物组研究)、轻量级梯度提升机(LGB,微软开发的最新梯度提升方法)和多层感知机(MLP,一种由两个隐藏层组成的深度学习模型)。我们使用常规的AUROC来评估各个模型的性能。此外,由于宿主之间和标签之间的样本数量极不平衡,我们还使用对不平衡数据集更敏感的精确率-召回率曲线下面积(AURPC)进行性能评估。

在仅使用微生物组ASV作为训练特征时,常规机器学习方法的AUROC值较低(图1d)。这可能是宿主因素或多种疾病相互作用的混杂效应导致的。当将宿主信息数据通过独热编码加入到模型中时(图1中用"+ "符号表示),所有模型的性能都显著提高,这凸显了宿主变量在疾病检测中的重要作用。同时,值得注意的是,对比方法在ASD和甲状腺疾病的检测中AUPRC值较低(图1e)。Meta-Spec在AUROC和AUPRC两项指标上的总体表现都是最好的,显著优于其他所有模型(图1d)。这要归因于Meta-Spec采用的深度神经网络,它能够在模型训练过程中充分利用疾病之间的微生物组模式的关联信息(图1f)。例如,在数据集1中,该网络表明了IBD和心血管疾病之间的模型特征具有正相关性(PCCs = 0.60;皮尔逊相关系数),以及IBD和ASD之间的负相关性(PCCs = 0.84)。消融实验进一步验证了Meta-Spec使用MMoE和交叉网络的策略的有效性。

我们还使用了来自广东省肠道微生物组计划(GGMP)的数据集2(表1)来验证了Meta-Spec的效果。该数据集包括了5347名受试者(表1;详见实验部分)。这些患者被诊断出至少患有代谢综合征、胃炎、Ⅱ型糖尿病(T2DM)和痛风等四种疾病中的一种。数据集2的结果与AGP美国队列的结果趋势相同,即仅使用OTU来训练模型得出的AUPRC较低。随着分类中加入了额外的宿主信息数据,各个模型的识别效果也得到了显著提高,这验证了Meta-Spec在多标签分类策略的优越性。此外,Meta-Spec还揭示了数据集 2 中胃炎与痛风之间微生物组特征的正相关关系(PCCs = 0.43)。

图1 微生物组多标签疾病分类

a) 在常规的实验设计中,每个样本只有一个状态标签。

b) 在实际队列中,受试者可能患有多种疾病。

c) Meta-Spec的深度学习框架。

d) Meta-Spec在数据集1的AUROC和AUPRC。

e) Meta-Spec在数据集1中每种疾病的AUPRC。

f) 数据集1中不同疾病之间模型的相关性。

在(d)和(e)中,“+”表示常规的模型训练中加入了宿主变量。

表1 数据集信息

3. 疾病之间的相关性对共存病检测至关重要

共存病在实际队列中非常普遍,在数据集1的队列中的3767名患者中,有1360名患者被确定为患有两种或两种以上疾病。常规分类策略往往会忽视这类共病,因此我们进一步评估不同方法在检测共存病方面的能力。我们将数据集1和数据集2中的患者分为两组(如图2a所示):仅患有目标疾病的单疾病组和伴有其他疾病的共存病组。共存病检测结果基于多标签分类,同时考虑了对目标疾病和共存病的性能表现。

图2 共存病检测的表现

a) 按共存病情况对患者进行分组。

b) 数据集1的总体AUPRC。

c) 数据集1中每种疾病的详细AUPRC。

“+”表示常规的模型训练中加入了宿主变量。

使用微生物组结构和宿主变量进行训练时,Meta-Spec在AUPRC(图2b)和AUROC方面显著优于其他机器学习分类器。这种优势主要得益于MMoE推断的疾病关联(图1f)以及Meta-Spec中交叉网络对多个宿主变量的组合。相比之下,当对比方法仅关注IBD、自身免疫和甲状腺等目标疾病时,它们可能会忽视共存病情况(图2c)。

4. 多标签疾病筛查的特征选择和变量优化

为了改善大多数神经网络模型解释性不足的问题,Meta-Spec引入了重要性值Meta-Spec Importance(MSI),以量化微生物成员和混杂因素在识别疾病模式中的贡献(详见实验部分)。根据MSI排序,宿主变量是数据集1中疾病筛查的主要特征(图3a)。以心血管疾病为例,年龄被认为是心血管疾病检测的最重要特征。具体而言,老年人、食用人工甜味剂的人以及便秘患者更容易患心血管疾病。宿主表型在MSI值高排名中的表现也阐明了它们对于提高RF和LGB在心血管疾病分类中性能的作用(图1e)。此外,从微生物组序列分析中得出的一些特征也有助于区分疾病,包括已经报道的ASV1(Escherichia_Shigella)和ASV28(Bacteroides),但它们在Meta-Spec模型中的重要性较低。

通过分析每种疾病的主要贡献特征(宿主变量和微生物的前20% MSI),我们观察到在两个数据集上超过80%的特征是至少两种疾病所共有的(图3b;表2)。肠道菌群、宿主变量和疾病之间的非特异性关联进一步解释了基于生物标志物和常规机器学习策略在共病检测中的局限性。其中,少数因素在大多数疾病中排名较高,例如数据集1中的BMI、排便质量、摄入益生菌频率、ASV1(Escherichia_Shigella)和ASV10(Bacteroides),以及数据集2中的地区、药物治疗、OTU4425571(Escherichia_Shigella)和OTU136025(Ralstonia)。另一方面,我们还发现了一些只对单一疾病敏感的独特特征。例如,食用海鲜频率与心血管疾病强相关,OTU4478762(Lacticigenium)和BMI有助于代谢综合征的检测。然而,尽管这些特征对于疾病检测很重要,但它们都不能单独作为疾病指标。例如,作为通用标记物,年龄、腰围、药物治疗和ASV1在状态预测中的AUPRC值仅为0.300、0.248、0.173和0.162,远远低于整体性能。因此,适当的分类方法和模型对于充分挖掘重要因素的意义至关重要。

图3 Meta-Spec重要性值(MSI)和宿主变量的细化

a) 对心血管疾病的主要宿主变量和微生物组成的MSI进行排序,前面的编号是它们的实际排名。

b) 数据集1中每种疾病高MSI的变量分布。

c) 不同数量的宿主变量数据下Meta-Spec的AUROC变化趋势。

d) 不同数量的宿主变量数据下Meta-Spec的AUPRC变化趋势。

在对原始宿主信息数据进行初步人工整理后,数据集1中仍保留了71个宿主变量用于模型的训练和验证。由于问卷中条目过多会给实际应用带来困难,因此我们进行了特征选择来评估宿主信息数据数量对分类性能的影响,从而减少入选的宿主变量数量。对于数据集1,我们首先根据在所有目标疾病中的平均MSI对所有宿主变量进行排序。然后,逐步剔除较不重要的宿主变量,使用Meta-Spec重复进行模型训练和相应的验证。性能曲线(图3c、d)描述了多标签分类的性能与入选宿主变量数量之间的关系。我们注意到,当只使用20个宿主变量时,Meta-Spec仍然可以提供良好的疾病检测结果。这项工作对于Meta-Spec在实际应用场景中至关重要,通过从宿主信息中获取少量易得信息,增强了肠道菌群在多疾病检测中的潜力。

表2 疾病之间的特征数量

5. 使用混合模型的Meta-Spec扩大了微生物组在跨地域上的应用

地理位置已被证明对人体微生物组的变化有显著影响。构建基于当地队列的数据模型是基于微生物组的检测的最合适选择,但是有限的训练样本会对这种方法构成挑战。在这种情况下,采用来自其他地区的经过充分验证的模型成为更实际的选择。然而,跨地区的模型也需要考虑模型的适用性和兼容性。为了研究Meta-Spec的跨队列多标签分类,我们在AGP数据集的英国队列上进行了五折交叉验证(表1,Dataset 3)。在每一轮交叉验证中,我们使用英国样本的五分之一作为测试集,并使用两个不同的数据集合进行训练(图4a),分别是:1)本地训练集(包括其他4/5的英国样本)。2)混合训练集(包括其他4/5的英国样本和美国样本)。此外,对于这两个训练集,我们通过对英国训练样本的数量从10%到100%之间调整,来模拟在缺乏本地样本的情况下进行建模的情况。

图4 跨队列验证的性能比较

a)用于跨地域检测的混合建模。

b)在混合建模中,随着UK训练样本的增加,总体AUROC和AUPRC呈上升趋势。

与预期相同,当使用英国本地队列仅占10%的训练集时,由于学习数据有限,表现出的分类性能较差(图4b)。然而,通过将来自美国队列的微生物组特征和宿主变量与数据有限的英国本地队列相结合,数据有限的不利影响得到缓解,跨队列的分类结果显著改善。通过引入更多的英国样本到两个数据集合中,我们发现混合训练集在AUPRC和AUROC方面始终优于英国本地队列。即使只有40%的英国样本,模型在混合训练集上的性能水平仍与在完整英国本地队列上相当。此外,包含100%英国样本的本地训练集的性能可以通过结合跨队列数据得到进一步优化和提升。因此,尽管肠道微生物组在不同地区存在差异,但通过宿主变量的嵌入和多队列模型集成,可以弥补分类方面的差距,具有显著的技术优势。

6. Meta-Spec在常规单标签分类上的适用性

为了验证Meta-Spec在广泛研究的单标签分类问题上的适用性,我们使用了来自多个队列的包含3391个宏基因组的数据集4(表1;详见实验部分)。在这个数据集中,每个患者被标记患有四种疾病中的一个疾病,包括急性脑血管疾病(ACVD)、结直肠癌(CRC)、克罗恩病和Ⅱ型糖尿病(T2D)。我们采用了Meta-Spec、RF和LGB三种方法使用五折交叉验证进行了两种类型的单标签分类测试:1)仅区分疾病样本和健康对照的二元分类。我们还计算了每个样本的肠道微生物健康指数(GMHI)来预测患病的可能性。当使用微生物分类特征进行二元状态分类时,RF和LGB的AUROC高于GMHI(图5a)。当在模型训练中进一步嵌入性别、年龄、BMI和地理区域等四个可用的宿主变量时,平均AUROC提高到0.97。2)指定详细疾病类型的多类分类。如图5b显示,通过额外的宿主信息,预测模型在总体kappa系数上得到了显著提高。因此,与常规的机器学习方法相比,Meta-Spec在单标签疾病检测中也可以提供极佳的性能。

图5 多类数据集的性能比较

a)健康状态检测的ROC曲线。

b) 使用Kappa系数的多类分类的性能比较。

- 讨论 -

多年来,研究人员一直专注于探索人类微生物组与各种疾病之间的潜在联系。科学家希望通过研究微生物特征预测人类健康状况的变化。然而,这是一项复杂的挑战,因为疾病的相互作用和宿主生活方式的变化会干扰人体微生物群落。肠道微生物群落已经被证明在人类健康中发挥着关键的作用,但考虑宿主信息对疾病检测的影响也是很重要的。虽然这些变量在实验设计、队列招募、多变量统计和效应大小测量中考虑了这些变量,但它们尚未被纳入基于微生物组的模型中。通过纳入易于收集的宿主表型数据,如饮食、BMI和年龄,与仅依赖微生物特征的模型相比,疾病检测模型在敏感度和精确度方面可以得到显著改善。

另一方面,机器学习越来越多地被用于开发预测模型。然而,许多训练过程仍然依赖于传统的机器学习技术,如支持向量机(SVM)和随机森林(RF),这些技术没有利用到机器学习或深度学习的最新发展。通过使用多个数据集和队列,我们已经证明了先进的深度神经网络在具有固有复杂性的生物数据的多疾病分类中的优势。此外,通过将每个标签视为一个单独的任务,我们的Meta-Spec方法可以快速而轻松地更新,只需轻微修改即可适应更多的疾病,而常规的机器学习模型则需要进行重大重构。这些工作标志着我们朝着了解未知微生物组的潜在特性迈出了重要一步。

- 实验部分 -

1. 宿主变量嵌入

一个微生物样本可以表示为一个向量x = (x1,...,xh,xh+1,...,xd),其中前h个特征是稀疏特征(宿主变量),后面的(d - h)个特征是密集特征(微生物组成员)。由于稀疏特征的数量远少于密集特征(h << dh),在建模过程中宿主变量产生的影响可能会被数量的不平衡的稀疏特征所稀释。为了解决这个问题,在Meta-Spec中我们将每个稀疏特征编码为m维嵌入向量(m设置为128),然后将所有嵌入向量与密集特征重新整合为(d - h + m * h)维向量c ∈ R(d-h)+m*h

2. 基于MMoE的微生物组疾病关联利用

为了捕捉疾病之间的微生物组关联,我们在深度学习框架中引入了MMoE层(图1c)。MMoE层包含多个专家,用高维向量c来建模不同的DNN,MMoE层还包含多个门,通过学习不同的专家组合模式以捕捉疾病之间的关系。第l个专家的输出用表示,wgk∈RL是第k个门的权重向量。第k个塔网络Tk(c)的MMoE输出通过对专家的输出进行加权得到,如公式(1)所示。

如上述公式所示,MMoE明确地训练微生物组在疾病中的关联关系,并学习共享表示。它可以自动学习共享信息的参数,并为不同的疾病分配权重。

3. 用交叉网络来利用微生物和宿主变量的相互作用

为了捕捉微生物相互作用和宿主变量相互作用,我们构建了交叉网络(Cross Networks)(图1c)。交叉网络是一种能够以自动方式学习特征交互的高效方法。对于微生物相互作用,我们通过公式(2)构建了一个微生物的密集交叉网络。

在公式中,xdenseR(d-h)表示所有密集特征的组合,wdense∈R((d-h)×(d-h))是权重矩阵,bdense∈R(d-h)是偏置向量,⨀表示Hadamard乘积。

同样地,我们也通过公式(3)开发了一个交叉网络来学习宿主变量之间的相互作用。

在公式中,xembRh*m表示所有稀疏特征的组合,wembR(h*m)*(h*m)是权重矩阵,bembRh*m是偏置向量。如公式(2)和(3)所示,交叉网络简单、内存高效且易于实现。

对于每个塔网络,将两个交叉网络的输出与相应的MMoE输出连接起来作为其输入。每个塔网络由一个全连接层组成,通过sigmoid函数输出最终的预测结果。此外,我们还采用了自动加权损失函数来通过公式(4)组合多目标损失函数。

其中,ck是第k个任务的可训练权重,wk是网络参数,lk(x,yk,y-hatk,wk)是第k个任务的损失函数。

在模型构建过程中,与传统的机器学习方法将输入特征视为输入常量不同,Meta-Spec通过迭代不断更新嵌入向量。因此,Meta-Spec不仅可以学习疾病之间的关联,还可以利用稀疏特征,从而使其性能优于传统的机器学习方法。

4. Meta-Spec重要性(MSI)的计算

为了对微生物特征和宿主变量在疾病检测中的贡献进行排名和量化,我们定义了基于博弈论的SHAP的Meta-Spec重要性(MSI)。通过Meta-Spec模型和测试数据集,MSI值可以解释一个特征对预测的贡献比例。具体而言,对于特征i,首先我们通过公式(5)解析出其相对贡献Ci

其中,SHAPij表示测试集中第j个样本的第i个特征的SHAP值。然后,通过对公式(6)和(7)中的贡献Ci进行归一化,生成MSI。

通过这种方式,对于特定的疾病,所有特征的MSI之和被归一化为100%。

5. 性能评估与对比

在这里,我们还使用了LR、RF、LGB和MLP来构建普通的分类器进行比较。对于多标签分类,常规的机器学习模型是从原始向量x(请参考第4.1节)中训练的,并通过二元相关性将任务分解为几个独立的二元分类器(每个标签一个分类器)。根据Statnikov等人的工作,每个模型的参数如表3所示进行调优。我们在测试过程中应用了嵌套重复的五折交叉验证,其中将80%的数据作为训练集,20%的数据作为测试集。

在五折交叉验证的每一折中,通过计算AUPRC、F1-macro和AUROC来评估性能。AUROC是ROC曲线下的面积,而AUPRC代表精确率-召回率曲线下的面积。所有疾病的平均AUROC和平均AUPRC被视为整体的AUROC和AUPRC。此外,F1-macro对预测不同疾病时得到的F1值进行平均计算,公式如下:

其中,TPkFPkFNkRecallkPrecisionkF1k分别表示检测第k个疾病时的真阳性、假阳性、假阴性、召回率、精确率和F1分数。

表3 模型调优参数

6. 微生物组数据集和预处理

所有数据集的简要信息总结在表1中。数据集1和数据集3是来自AGP队列。16S rRNA基因扩增子的ASV和每个受试者的宿主信息数据从Qiita(study ID:10317)下载。然后,使用Parallel-Meta Suite将ASV根据Greengenes 13-8数据库进行分类注释。如果宿主信息数据中指定的疾病被记录为“由医疗专业人员(医生、医师助理)诊断”,则将该受试者视为患者;如果对所有疾病标记为“我没有这种情况”,则将其视为健康。为了消除ASV的稀疏性,我们基于均值方差指数进行了一个分布无关的独立性检验,并选择了1168个与健康状态相关的ASV用于疾病检测。数据集2是从GGMP收集的。每位受试者的16S rRNA基因扩增子序列和宿主信息数据是来自EBI(ID: PRJEB18535),且从GGMP(https://github.com/SMUJYYXB/GGMP-Regionalvariations)的流程筛选OTU。我们还使用基于均值方差指数的分布无分布独立性检验,并选择了449个与目标疾病相关的OTU。数据集4是由34项研究产生的跨队列数据集。由MetaPhlAn2分析原始鸟枪法粪便宏基因组的物种级别分类。此外,在每个数据集中,使用卡方检验选择与至少一种目标疾病相关的宿主变量。

7. 代码和数据可用性

Meta-Spec软件包已在GitHub上发布(https://github.com/qdu-bioinfo/meta-spec)。本研究使用的数据集的源数据在表1中总结。

参考文献

Wu S, Li Z, Chen Y, et al. Host‐Variable‐Embedding Augmented Microbiome‐Based Simultaneous Detection of Multiple Diseases by Deep Learning[J]. Advanced Intelligent Systems, 2023: 2300342.

- 作者简介 -

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多