分享

科研 | Nature:宿主变量影响了人类疾病肠道微生物群的研究结果

 微生态 2021-04-13


编译:yuan,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

在人类疾病中微生物群作用的研究中,一致性差一直是一个普遍问题,它限制了鉴定宿主相关微生物和病理学之间因果关系的能力。个体间的微生物群组成存在着广泛的异质性,可能是由于人群范围内的生活方式和生理变量差异对微生物群产生了不同的影响,这加剧了获得假阳性的风险。

本文推断了人类肠道微生物群分布中最大的、普遍的异质性来源,并确定了一部分人类生活方式和生理特征,如果其在病例组和对照组之间分布不均匀,则会混淆微生物群分析,从而产生虚假的人类疾病相关微生物。意外地,我们确定饮酒频率和排便质量为肠道微生物群变化的强大来源,这些差异在健康参与者和疾病参与者之间的分布不同,并可能混淆研究设计。

本文证明,对于众多高流行、高负担的疾病,匹配病例和对照间的混杂变量减少了观察到的微生物群差异和虚假关联的发生率。在此基础上,我们提出了一份宿主变量列表,建议在人类微生物群研究的比较组间进行匹配,我们预计这些变量将在发现真正的人类疾病相关的肠道微生物群成分研究中提高研究的稳健性和可重复性。

论文ID

原名:Host variables confound gut microbiota studies of human disease
译名:宿主变量混淆了人类疾病肠道微生物群的研究
期刊:Nature
IF:42.779
时间:2020.9
通讯作者:Ivan Vujkovic-Cvijin,Yasmine Belkaid
通讯作者单位:美国国家卫生研究院变态反应和传染病研究所

Search Results

Web results那不勒斯腓特烈二世大学

实验设计

肠道微生物群在人体的几个主要器官系统的发育和功能中起着至关重要的作用,该群落的失调可显著影响小鼠模型的神经、代谢和炎症性疾病的发展。在目前的横断面研究设计中,确定导致人类疾病的肠道微生物群成员是很困难的,并且微生物群的个体间差异可能会掩盖疾病参与者和健康参与者之间的真实差异。因此,我们利用美国肠道队列项目(AGP,包括问卷调查和粪便样本采集)这一已知最大的公开人类肠道细菌群落数据集,首先试图使用机器学习方法来识别人类肠道微生物群中最可靠的变异源,然后了解它们对以微生物群为中心的人类疾病研究的影响。

主要内容


1.  机器学习方法的框架
构建AGP的16S rRNA扩增序列变异(amplicon sequence variants, ASV)表格,用于评估肠道微生物群组成与问卷记录的每个宿主变量之间的关联强度。通过机器学习的分类方法来评估这些关联的强度(利用bootstrapping和交叉验证来确定组间可靠的、可复制的数据模式)。为每个二元宿主变量构建病例对照队列,并通过随机森林方法计算接收器工作特性曲线下的面积(AUROC)平均值。由此得到的AUROC值量化了ASV丰度数据在二元宿主变量上区分样本的能力,从而代表宿主变量和微生物群组成之间关联的稳健性。

2.  微生物群相关宿主变量的识别
我们采用上述机器学习框架来确定纳入排除变量和微生物群的关联强度。在考虑了每个假定排除变量的AUROC值、一般人群中的代表性和相对样本量之后,我们采用了以下排除标准:
①无炎症性肠病(IBD)或二型糖尿病(T2D)诊断;
②体重指数(BMI)在12.5~40kg/m2
③年龄在20-80岁之间;
④在粪便取样前6个月内没有使用抗生素;
⑤来自美国、英国或加拿大。最终得到由5878名非重复参与者组成的核心群体。对于这个核心群体,我们使用上述机器学习框架来评估问卷上所有变量与肠道微生物群组成之间的关联强度。
结果显示许多宿主的生理、生活方式和饮食变量与微生物群表现出显著的相关性(平均AUROC>0.65,P<0.05)(图1)。除了被选为排除标准的疾病外(即IBDT2D),没有其他任何人类疾病达到AUROC>0.65且P<0.05。此外,剔除所有自报有诊断疾病的参与者后,AUROC结果与来自核心样本人群的结果一致。

图1 生理性、生活方式和饮食的特征与肠道微生物群的组成密切相关。a, 生理性、生活方式和饮食变量(二元)的随机森林分析结果。所有变量P<0.05(经验P置换试验)。蓝色标签的变量被提议作为后续分析中的匹配变量。BM,排便行为。b, 基于频率的生活方式和饮食摄入变量(多分类)的随机森林分析结果。对于每一个频率类别(即“每日”、“定期”、“偶尔”和“很少”),对照均为那些对该变量自我报告“从不”的人。每个变量频率上的点表示P<0.05。ab中,实心条表示平均值,方框表示上四分位范围,胡须表示随机森林分类器100次重复的AUROC值的标准差。
 
3.  宿主变量混淆了疾病分析
在小鼠模型中,肠道微生物群被认为是神经、内分泌和免疫功能的有效调节因子。人们对这些微生物群落在人类有关这些系统的疾病中的作用越来越感兴趣,而了解肠道细菌是否会影响这些疾病的常见策略是横断面调查研究,即比较有疾病者和无疾病对照的微生物群落。如果生理特征或生活方式之类的宿主变量在病例组的分布与对照组不同,那么这种横断面研究可能会将疾病-微生物相关性与混杂变量影响混为一谈。因为我们发现稳健的微生物群组成模式与几个宿主变量相关,我们试图了解自报有经医学诊断的疾病者与随机选择的无疾病对照组相比,这些宿主变量的分布是否存在差异。基于宿主变量在机器学习框架中的表现以及与其他宿主变量的冗余性,我们重点关注以下微生物群相关变量:BMI、性别、年龄、地理位置、饮酒频率、排便质量(BMQ)以及饮食摄入频率(包括肉类/鸡蛋、乳制品、蔬菜、全谷物和盐渍零食)。我们发现大多数微生物群相关变量的分布在病例组和对照组之间存在显著差异(图2a)。
我们进一步比较了病例组和对照组的微生物群,从而确定与疾病相关的微生物群差异以及由微生物群相关混杂变量引起的微生物群差异。为了消除微生物群相关混杂变量的影响,我们通过基于欧几里德距离的方法为核心样本人群中的每个病例匹配一个相应的对照,其中“未匹配”对照为随机选择的仅地区匹配的对照,“匹配”对照为每个疾病差异因素匹配的对照。并且采用标准的基于β多样性的PERMANOVA检验(一种基于生态学的社区水平方法)来评估病例组分别与“匹配”对照组和“未匹配”对照组之间的群落组成差异。与“未匹配”对照组相比,“匹配”对照组后,19种疾病中的13种中观察到微生物群落的差异显著减少,尽管样本量没有变化(图2b)。当从对照人群中排除所有报告有医学诊断疾病的参与者时,以及使用基于机器学习的方法时,这些发现仍是一致的。当病例组与匹配以下疾病的对照组比较时(包括临床抑郁症、孤独症谱系障碍、肺病、甲状腺疾病、偏头痛和小肠过度生长),微生物群落的统计显著差异消失。
 

图2 病例组与健康对照组的关键微生物群相关变量存在差异,这混淆了微生物群分析。a, 紫色点显示此变量在该病患者与“未匹配”对照者之间存在差异(Benjamini–Hochberg Q<0.05)。连续变量(年龄和BMI)比较采用双侧Mann-Whitney U检验,其他分类变量比较采用Fisher精确检验。ADD,注意力缺陷障碍;ADHD,注意力缺陷/多动障碍;ASD,自闭症谱障碍;IBD,炎症性肠病;IBS,肠易激综合征;SIBO,小肠细菌过度生长。b, 病例组与“未匹配”对照和“匹配”对照的基于β多样性的F统计差异。通过bootstrapping方法重新选择对照人群对分析进行了增强,以评估微生物群落差异的分散性。红色方框表示25个“未匹配”病例-对照人群的F统计量四分位数范围,蓝色框表示25个“匹配”病例-对照人群的F统计量四分位数范围,这些变量在a图病例组和对照组之间存在差异。框内的中心线表示F统计值的中值,黑色箭头表示“未匹配”病例-对照人群和“匹配”病例-对照人群之间的F统计量中值存在差异。NS,无统计学差异。“未匹配”对照为随机选择的仅地区匹配的对照,“匹配”对照为每个疾病差异因素匹配的对照。
 
在对混杂变量进行匹配后,病例组和对照组之间微生物群落的差异幅度下降最大的是自报T2D患者。匹配之前,T2D患者在饮酒频率、BMI和年龄方面与对照组有显著差异(图3a-c)。通过机器学习分析和基于β多样性的置换检验,T2D患者和对照组的肠道微生物群分布存在显著差异(图3d)。在匹配了微生物群相关混杂变量后(图3e-g),机器学习分析未观察到病例组和对照组之间的微生物群差异,而基于β多样性的置换检验观察到的差异显著减少(尽管仍然具有统计学显著性)(图3h, i)。
消除混杂变量影响的策略包括线性混合模型分析的统计校正。我们发现,在线性混合效应模型中,将BMI、年龄和饮酒频率作为协变量,可将T2D患者和未匹配对照组之间有统计学差异的虚假ASV数量从5个减少到2个(Benjamini-Hochberg Q<0.05)。但是,即使是对混杂协变量进行校正后,T2D患者和对照组之间唯一存在显著差异的ASV仍是虚假的,即参与者间存在与疾病无关的混杂变量差异(图3j),这表明统计校正并不能从混杂因素中辨别出真正的信号。相比之下,当匹配对照组的混杂变量时,就没有发现ASV有显著差异(图3j),强调了参与者选择在减少假阳性关联中的重要性。
为了确定T2D相关细菌,我们对既往研究进行了检查,发现六项研究中只有一项研究报告了病例组和对照组的饮酒频率,一项研究匹配了BMI、年龄和饮酒频率三个混杂变量中的两个,三项研究只匹配了三个中的一个,其余的要么完全不匹配,要么没有报告这些变量的数据。三个研究T2D和一个研究代谢综合征的分析表明,通过匹配一个或多个混杂变量可以显著减少病例和对照之间观察到的微生物群差异,这一发现在所有四个研究中都得到了重复。当比较混杂变量匹配的病例和对照时,抗糖尿病药物二甲双胍对肠道微生物群的影响也降低了。尽管我们的研究报告:即使匹配后,T2D病例组和对照组之间仍存在显著差异;但一项独立研究报告称糖尿病合并肥胖患者与单纯肥胖患者之间的肠道微生物群分布没有显著差异,这突出了匹配对于T2D混杂变量的潜在重要性。
值得注意的是,在本研究中有几种疾病,即使在匹配混杂变量后仍与肠道微生物群落组成差异有关。这些疾病包括IBD、任何皮肤状况、酸反流和癌症。
 

图3 由混杂变量引起的微生物群变化会虚假地增加观察到的疾病相关微生物群差异。a-c,T2D患者与“未匹配”非糖尿病对照组(n=126)的(a)饮酒频率(Benjamini-Hochberg Q=0.0015,Fisher精确检验)、(b)BMI(Benjamini-Hochberg Q=4.14×10-9,双侧Mann-Whitney U检验)和(c)年龄(Benjamini-Hochberg Q=5.94×10-5,双侧Mann-Whitney U检验)的差异。d,T2D患者与“未匹配”非糖尿病对照组的主坐标分析(PCoA)图,以及PERMANOVA P值和F统计的中位数。两组的质心分别用圆圈表示。e-g,T2D患者和“匹配”非糖尿病对照组的(e)饮酒频率、(f)BMI和(g)年龄的差异。h,T2D患者和“匹配”非糖尿病对照组的PCoA图。i,T2D患者组分别与“未匹配”和“匹配”对照组的随机森林AUROC值。j,以年龄、BMI和饮酒频率作为混杂协变量构建线性混合效应模型。每个分析均显示通过Benjamini–Hochberg Q<0.05临界值的ASV。bcfgi中,方框表示四分位间距,中间条形表示中值,胡须表示四分位间距×1.5
 
4.  饮酒和粪便质量对微生物群的影响
饮酒可以显著区分微生物群分布,并存在剂量反应关系(图1b)。我们试图量化饮酒频率对微生物群-疾病关联的影响程度。为此,我们使用了两种方法:除单个变量外的所有变量都匹配(leave-one-out, LOO)和单个变量匹配。我们发现,几种疾病中的饮酒再两种方法中均表现出非零混杂效应,且不限于T2D。对于T2D,与匹配所有变量相比,匹配除饮酒的其他所有变量的病例-对照之间微生物群的显著差异明显增加,表明该人群中饮酒存在显著性的非冗余混杂效应(图4a)。同样地,仅匹配饮酒显著降低了T2D病例-对照之间微生物群的差异(图4a),强调了该宿主变量在微生物群比较中的混杂能力。
为了验证饮酒对肠道微生物群的影响,我们验证了一个外部人群(记录了16s rRNA和饮酒数据)。本研究和外部人群均显示,经常饮酒者和不经常饮酒者之间的属级微生物差异显著(Spearman P=5×10-5ρ=0.54)。在不经常饮酒者和所有饮酒者的丰度差异显著的细菌中,Bifidobacterium ASV在饮酒人群中最常见,这一发现得到了既往较小人群研究的支持。饮酒者的α多样性也以剂量依赖性的方式增加(图4b),这与既往对红酒饮酒的调查结果一致。
与不饮酒者相比,饮酒频率本身与几个微生物群相关混杂变量的差异分布密切相关。在病例-“匹配”对照组中,所有类别的酒精中均可以观察到饮酒频率对微生物群的剂量依赖性影响,通过生态学(图4c)和机器学习方法(扩展数据图9d)表明每周累积摄入量对微生物群差异影响最明显。在验证饮酒种类时,饮用葡萄酒、啤酒或苹果酒与微生物群组成(扩展数据图9e)和α多样性(扩展数据图9f)的差异相关最大。
使用两种混杂效应估计方法,排便质量(BMQ)都是疾病中最重要的混杂变量之一。在偏头痛和自闭症谱系障碍的情况下,从匹配变量中排除BMQ会导致病例-对照比较中微生物群差异增加最大,这表明它对微生物群方差的非冗余影响,这一发现在仅匹配BMQ时得到重复(图4d, e)。与饮酒相似,报告BMQ异常的参与者在混杂变量的分布上与对照组有差异(扩展数据图10a)。在病例-“匹配”对照组中,通过排序(图4f)和PERMANOVA(图4g),BMQ与微生物群组成的关联强度仍然很明显。
 

图4 饮酒和BMQ对微生物群组成的影响巨大,这混淆了对于人类疾病微生物群的研究。

a, T2D病例-对照人群是通过仅匹配位置(“未匹配”)、将三个不一致变量全部匹配(“匹配”)、分别匹配每个变量、以及匹配除保留变量的其他所有变量(“LOO分析”)构建的。如文中所述采用基于β多样性的F统计量对微生物群关联性进行量化。用双侧t检验评价F统计量差异的显著性。P=0.002,P=2.7×10−11b, 饮酒频率的Shannon多样性。黑色粗条表示中值,方框表示四分位值。蓝色底纹是小提琴图,表示所示范围内样品的密度。Spearman P=4.8×10-14c, 将饮酒的受试者与不饮酒的对照组进行混杂变量匹配(扩展数据图9c),并计算基于F统计的bootstrappedβ多样性(n=350名受试者/组)。显示了PERMANOVA P中值。P =0.021,P =0.011,P =0.006;P =0.018,P =0.01,P =0.016;P =0.004,P=0.004。d, 病例-对照人群是按照a中的单变量单独匹配或LOO分析构建的。P=1×10−10e, 单变量单独匹配和LOO分析的构建与ASD相似。P=0.004,P=8×10−5f, BMQ稳定、正常和松散的参与者的Canberra为基础的PCoA排序(Bristol排便得分分别为1-2、3-4和5-7)。人群质心为大而黑的圆圈。组间PERMANOVA P=1×10−5g, BMQ病例与“匹配”对照组(扩展数据图10a),计算基于 bootstrappedβ多样性F统计量。显示PERMANOVA P中值。P=0.0003,P=0.006。ac–eg中,方框表示四分位间距,黑色条表示中值,胡须表示四分位间距×1.5。*P<0.05;**P<0.005;***P<0.0005。标题中也提供了精确的值。

5.  数据解释注意事项
样本量小可能会产生假阴性结果,并且基于β多样性的分析确实与样本量密切相关。随机森林AUROC值对样本量依赖性较小,但大多数变量的表现在样本量400-500时达到平台期,但在我们的数据集中许多疾病人群并没有达到这个样本量阈值。抑郁症可能就是一个这样的例子(n=342),最近一项匹配关键变量的大型研究报告了与抑郁症相关的微生物群差异。
个人信息的自我报告可能会导致偏倚和误报,从而破坏数据集。专业人员辅助报告中也存在如观察者效应在内的注意事项,因此客观测量新技术(例如,DNA代谢编码)或方法组合可以更好地估计实际效果。不管怎样,在我们的数据集中,疾病状态和宿主变量之间的良好报告关联性被重新验证了(例如,女性甲状腺疾病、男性心血管疾病、T2D患者的较高BMI等等),这增强了我们数据集中自我报告的可信度。然而,我们有可能将糖尿病患者与未诊断糖尿病患者(作为对照)相匹配,这表明我们在进一步研究时需要纳入经临床验证的无疾病对照。本研究中将检查出的关键变量进行匹配以消除冗余的相关宿主变量影响;但是,我们忽略了具有高AUROC的变量,这些变量可能在其他人群中具有独特的分布。因此,对所有高影响力变量的检查可能会让我们发现更多混杂变量。此外,调查问卷可能没有捕捉到所有现存的混杂变量。对其他假定的和确认的微生物群相关混杂因素的调查,如性行为、移民状况、社会经济状况和药物使用等,可能会进一步提高对疾病真正相关微生物群成分的辨别能力。
本研究对检测16S rRNA基因V4区域产生了质疑,该区域在分辨微生物分支方面具有不同的功效(通常在属水平上),并且对于疾病参与者中可能存在的菌株水平差异在本研究中也没有观察到。既往研究发现,包括Enterobacteriaceae成员在内的特定肠道微生物会在样品运输过程中大量繁殖,促使我们在分析中删除了这些特定肠道微生物。但它们与人类炎症性疾病有关,因此在对相关疾病进行微生物群差异估计时可能低估了这些微生物的影响。此外,虽然我们发现混杂变量的统计校正并没有消除比较分析中虚假混杂相关微生物的出现,但尚不清楚在进行不同疾病的病例-对照比较时,何种程度的不匹配是在统计学上可以容忍的。作为对混杂变量不匹配程度容忍的替代,我们建议使用病例-对照匹配来最小化I型错误的风险。
考虑到种族和民族组成,接受检查的AGP参与者并不代表全球人口,尽管本研究的BMQ影响和外部人群一致,这个外部人群是由AGP没有的种族组成的,但是混杂变量的影响特性的规模和质量可能在不同种族人群中有所不同。此外,种族本身可能会产生混杂效应,由于种族多样性不足,我们的数据集无法解决这一问题。然而,我们的数据集在慢性病负担方面具有代表性,为了最大限度地推广我们的研究结果,我们允许在每个疾病比较中包括报告其他疾病的参与者。虽然其他疾病可能在每个疾病分析中产生混杂效应,但值得注意的是,与其他变量相比,T2D和IBD(已排除)以外的其他疾病对微生物群的影响较小,不符合或不接近排除标准或匹配变量的标准。但是,剔除对照人群中任何报告疾病参与者增加了病例组与对照组之间的差异,这表明,尽管匹配了混杂变量,其他我们研究中没有的微生物群相关宿主变量(例如社会经济状况、种族和药物使用等)可能会使无病参与者与慢性病患者间有所区别。因此,比较组的选择会显著影响到观察结果,在研究设计过程中应仔细考虑。上消化道的微生物群在粪便中没有很好的表现,这可能解释了在匹配后并没有观察到的小肠过度生长相关的微生物特征。最后,混杂变量匹配虽然缩小了大多数疾病的疾病相关独特微生物的范围,但在“匹配”的病例-对照间没有显著丰度差异的混杂相关微生物仍然有可能调节具有疾病遗传倾向的参与者的发病机制(或其他环境倾向)。因此,健康人普遍存在的微生物群与宿主发生异常相互作用可能构成了目前关联研究尚且无法解决的致病机制。
 

结论

本研究结果强调了通过确定的微生物群相关混杂宿主变量来对病例进行对照匹配的必要性,特别是在研究与独特生理、生活方式或饮食特征相关的疾病或表型中。我们的研究结果与既往研究结果一致,这些研究发现肠道微生物群与粪便质量、BMI、年龄、红酒摄入量和盐摄入量之间存在关联。有证据表明,全谷物对肠道微生物群组成的影响与精制谷物不同,因此,我们研究中全谷物的影响可能主要由整体谷物摄入造成的。我们的研究发现,通过匹配掉病例-对照间的代表微生物群落最大异质性的混杂变量,有效减少了疾病与细菌之间的虚假关联,增加了识别真正与疾病相关的细菌的可能性。我们假设严格匹配将增加人类疾病中微生物群研究的一致性,并将加速对肠道微生物在发病机制中的作用的理解。本研究还强调了宏数据信息采集良好的大规模人群的价值。最好是在纵向框架内建立这样的大样本人群,以减少个体间混杂变量的影响,并且收集肠道微生物群以外的其他组学分析的样本,很有可能对我们对健康和疾病的理解做出实质性贡献。




你可能还喜欢

  1. 2019年度回顾 | 微生态环境微生物类微文大合辑

  2. 2019年度回顾 | 微生态人体/动物微生物类微文大合辑

  3. 2019年度回顾 | 技术贴合辑大放送


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多