分享

Nature子刊:在基于连接组的机器学习模型中,数据泄露会夸大预测性能

 思影科技 2024-04-27 发布于重庆
     预测建模是神经影像学中识别脑-行为关系并测试其对未见数据泛化能力的核心技术。然而,数据泄露通过破坏训练数据和测试数据之间的分离,破坏了预测模型的有效性。泄露始终是不正确的做法,但在机器学习中仍然普遍存在。了解其对神经影像学预测模型的影响,可以说明泄露如何影响现有研究。在这里,我们研究了五种形式的泄露(涉及特征选择、协变量校正和受试者之间的依赖性)对四个数据集和三种表型的功能和结构连接组机器学习模型的影响。通过特征选择和重复受试者的泄露极大地夸大了预测性能,而其他形式的泄露影响较小。此外,小数据集会加剧泄露的影响。总的来说,我们的结果说明了泄露的可变影响,并强调了避免数据泄露以提高预测建模的有效性和可重复性的重要性。本文发表在Nature Communications杂志。

引言

      理解个体在脑-行为关系方面的差异是神经科学的一个核心目标。作为这一目标的一部分,使用神经影像数据(如功能连接)的机器学习方法在预测许多表型方面越来越受欢迎,包括认知表现、年龄和几种与临床相关的结果。与经典的统计推断相比,预测在可重复性和泛化性方面具有优势,因为它在模型训练过程中没有见过的参与者身上评估模型。本质上,数据被分割成训练和测试子集,例如通过k-fold交叉验证或简单的训练/测试分割,以便模型在未见过的数据上进行严格评估。然而,训练数据和测试数据之间的边界可能会因数据泄露而无意中被违反。数据泄露是指在训练过程中将有关测试数据的信息引入模型,从而抵消了分离训练数据和测试数据的好处。

      最近对机器学习的一项元回顾强调了泄露在17个领域的普遍性。确定了329篇论文包含泄露。这篇元回顾描述了八种类型的泄露:没有单独的测试集、对训练集和测试集进行预处理、在训练集和测试集上联合进行特征选择、重复的数据点、错误特征、时间泄露、训练集和测试集之间的非独立性以及抽样偏差。数据泄露常常导致模型性能膨胀,从而降低了再现性。在另一项专门针对预测性神经影像学的评论中,在将数据集分割为训练/测试之前,57项研究中有10项可能通过在整个数据集上进行降维而泄露了信息。由于泄露可能会显著改变报告的结果,因此它对神经影像学中正在进行的再现性危机做出了贡献。尽管泄露普遍存在且令人担忧,但由于泄露导致的神经影像学预测模型性能膨胀的严重程度仍然未知。

       在这项工作中,我们评估了泄露对四个大型数据集中基于功能连接组的预测模型的影响,用于预测三种表型。具体来说,在400多个管道中,我们测试了特征泄露、基于协变量的泄露和受试者泄露。这些泄露类型涵盖了Kapoor和Narayanan描述的八种泄露类型中的五种(补充表1)。我们首先通过比较各种泄露和非泄露管道中的两个性能指标,显示泄露对预测性能的影响。然后,我们通过比较模型系数来评估泄露对模型解释的影响。此外,我们以四种不同的样本量对数据集进行重采样,以说明小样本量可能最容易受到泄露的影响。最后,我们将分析扩展到一个公共数据集中的结构连接组。总的来说,我们的结果阐明了在神经影像数据集中,许多可能形式的泄露所导致的后果。

方法

预处理

      在所有数据集中,数据都进行了运动校正。使用BioImage Suite进行了其他预处理步骤。这包括从功能数据中回归无关的协变量,包括线性和二次漂移、平均脑脊液信号、平均白质信号和平均全局信号。通过从数据中回归24参数运动模型(包括6个刚体运动参数、6个时间导数以及这些项的平方)来应用额外的运动控制。随后,我们应用时间平滑与高斯滤波器(近似截止频率=0.12 Hz)和灰质掩模(如在共同空间中定义的那样)。然后,应用Shen 268节点图谱将去噪数据划分为268个节点。最后,我们通过关联每对节点时间序列数据并应用Fisher变换来生成功能连接矩阵。某些数据质量差、没有全脑覆盖而缺失节点、运动过大(平均帧间运动>0.2 mm)或缺失行为/表型数据,这些数据被排除在外。

青少年脑认知发育数据

     在这项工作中,我们使用了ABCD数据集第一年的第一次和第二次发布。这包括在美国21个地点成像的9-10岁儿童。在排除了质量差或运动过大(平均帧位移[FD]>0.2 mm)的扫描后,这个数据集中仍有7970名参与者具有静息态连接组(最多10分钟的静息态数据)。一名参与者没有家庭信息,因此剩下7969名参与者,包括6903个独特的家庭。在这些参与者中,平均年龄为9.94岁(标准差0.62),范围为9-10.92岁,49.71%的人自我报告性别为女性。

     对于注意力问题测量,我们使用了儿童行为量表(CBCL)注意力问题原始分数。在ABCD中,一名参与者缺失了注意力问题分数。在有注意力问题分数的参与者中,平均值为2.80(标准差3.40),范围为0-20。

     对于矩阵推理测量,我们使用了韦氏儿童智力量表(WISC-V)矩阵推理总原始分数。147名参与者(N=7822)缺失WISC-V测量。在ABCD中,矩阵推理得分的平均值为18.25(标准差3.69),范围为0-30。

健康脑网络数据

      HBN数据集包括大约5-22岁的参与者。数据收集自纽约大都会区附近的四个地点。应用排除标准后,剩下1201名参与者具有静息态连接组(10分钟扫描)。39.80%为女性,平均年龄为11.65岁(标准差3.42),范围为5.58-21.90岁。该数据集中没有家庭信息。

      对于注意力问题测量,我们使用了CBCL注意力问题原始分数。51名参与者缺失注意力问题分数,但其余参与者的平均分数为7.41(标准差4.54),范围为0-19。

      对于矩阵推理测量,我们也使用了WISC-V矩阵推理总原始分数。177名参与者因缺失该测量而被排除。平均分数为18.36(标准差4.46),范围为2-31。

人类连接组计划发育数据

      HCPD数据集包括8-22岁的健康参与者,成像数据在美国四个地点(哈佛大学、加州大学洛杉矶分校、明尼苏达大学、圣路易斯华盛顿大学)获得。在排除低质量或高运动数据后,605名参与者具有静息态连接组(最多26分钟的静息态数据)。在这605名参与者中,平均年龄为14.61岁(标准差3.90),范围从8.08到21.92岁。53.72%的参与者自我报告性别为女性,有536个独特的家庭。

     对于注意力问题测量,我们使用了儿童行为量表(CBCL)注意力问题原始分数。462名参与者有这个测量,平均值为2.03(标准差2.56),范围为0-18。

      对于矩阵推理测量,我们使用了WISC-V矩阵推理总原始分数。424名参与者留在这项分析中,平均值为21.08(标准差3.96),范围为11-31。

费城神经发育队列数据

       PNC数据集包括在费城地区接受费城儿童医院护理的8-21岁个体。1126名参与者的静息态扫描(6分钟扫描)通过了我们的排除标准。平均年龄为14.80岁(标准差3.29),范围为8-21岁。自我报告的女性参与者百分比为54.62%。

       对于注意力问题测量,我们使用了前驱症状结构化访谈:专注和注意力严重程度量表(SIP001,登记代码:phv00194672.v2.p2)。1104名参与者有这个测量,平均值为1.03(标准差1.19),范围为0-6。

      对于矩阵推理测量,我们使用了Penn矩阵推理总原始分数(PMAT_CR,登记代码:phv00194834.v2.p2)。1119名参与者留在这项分析中,平均值为11.99(标准差4.09),范围为0-24。

基线模型

       对于主要分析,我们使用5折交叉验证训练了一个岭回归模型。对于HBN、HCPD和PNC,使用了五个嵌套折进行超参数选择,而在ABCD中仅使用了两个嵌套折以减少计算时间。在折内,选择了与表型变量相关性最显著的前5%的特征。此外,我们对L2正则化参数α (α = 10{-3,-2,-1,0,1,2,3})进行了网格搜索,选择的模型是在嵌套折中具有最高Pearson相关值r的模型。

       对于我们的基线黄金标准模型(图2-5:标记为黄金标准),数据分割考虑了家庭结构,如适用(仅ABCD和HCPD),这样单个家庭的所有成员都包含在同一测试分割中。此外,我们执行了交叉验证的协变量回归,其中在交叉验证方案内从功能连接数据中回归了几个协变量。首先从训练数据中回归协变量,然后将这些参数应用于从测试数据中回归协变量。协变量包括平均头部运动(FD)、性别和年龄,尽管在预测年龄的模型中未从数据中回归年龄。此外,在适用的情况下(ABCD、HBN和HCPD),使用ComBat在交叉验证方案内校正了站点差异。ComBat与协变量回归分开执行,因为ComBat是为批次效应而设计的,而不是为连续变量设计的。除了基线黄金标准模型,我们还评估了许多形式的泄露,如以下章节所述(另见图1)。

泄露形式的选择

      由于泄露的形式众多,调查每一种类型的泄露是不可行的。在这项工作中,我们专注于三大类泄露,包括特征选择泄露、协变量相关泄露(通过站点校正或协变量回归泄露)和受试者水平泄露(通过家庭结构或重复受试者泄露)。我们选择这些特定形式的泄露,因为我们预计它们是神经影像学预测研究中最常见和/或影响最大的错误。根据我们的经验,特征选择泄露是一个重要的考虑因素,因为它可能以微妙的方式表现出来。例如,可能会进行解释性分析,例如确定两组之间大脑网络最显著的差异,然后将这些预定的网络用作预测特征,这构成了泄露。对于协变量相关泄露,我们已经注意到,在神经影像学研究中,站点校正和协变量回归通常在合并的训练和测试数据上执行。最后,对于受试者水平泄露,除非明确研究,否则神经影像数据集中通常会忽略家庭结构。因此,理解这些形式的泄露如何改变预测性能仍然是一个重要问题。

      在这项工作中没有考虑某些形式的泄露,包括时间泄露、在合并的训练/测试数据中选择模型超参数、在合并的训练/测试数据中进行无监督降维、表型的标准化以及非法特征。时间泄露(模型对未来做出预测,但使用训练数据之前时间点的测试数据)与使用静态功能和结构连接的横断面研究无关,但可能与使用纵向数据或大脑动力学的预测研究相关。虽然在测试数据集中评估模型以选择最佳模型超参数是一种泄露形式,但它在神经影像学中已有先前的研究,因此未包含在本研究中。各种形式的无监督降维,如独立成分分析,在神经影像学中很流行,如果在执行预测之前在合并的训练和测试数据集中执行,则构成泄露。应避免通过无监督降维进行泄露,但我们认为,通过特征选择进行泄露是一种降维技术,由于它涉及目标变量,因此既更常见又影响更大。此外,有时在交叉验证折外对表型进行标准化(即z-scoring),但在这项工作中没有研究这种形式的泄露,因为它对使用神经影像学连接进行预测的最常见评估指标(Pearson's r,q2)不敏感。最后,通过非法特征进行的泄露意味着模型可以访问它不应访问的特征,例如预测因子是结果变量的代理。使用成像和临床或表型测量来预测其他结果的研究应谨慎对待通过非法特征的泄露,但对于严格从结构或功能连接数据进行预测的研究而言,这不太相关。

特征泄露

       特征选择是许多基于连接组的机器学习管道中的常见步骤。通常,它包括确定哪些特征与感兴趣的表型最相关,例如通过选择与该表型相关性最高的边特征。一个可能的错误是在整个数据集中选择特征,然后使用k-fold交叉验证或训练/测试分割来训练模型和评估性能。Whelan和Garavan之前使用随机数据通过非嵌套特征选择演示了性能膨胀,尽管我们认为使用神经影像数据演示这一点也很有用。为此,我们在整个数据集中选择了前5%的特征,然后使用5折交叉验证评估性能。

协变量相关的泄露
      泄露的一个常见例子是在将数据分成训练集和测试集之前,先对整个数据集进行站点效应校正,例如使用ComBat。为了避免泄露,应该在交叉验证的每个折叠中对训练数据应用ComBat,然后使用这些ComBat参数来校正测试数据的站点,正如Spisak在最近的一项工作中所描述的那样。在这里,我们通过在整个数据集上执行ComBat来评估泄露的影响,并将其与在交叉验证折叠内应用ComBat的金标准进行比较。如几个先前的工作29-31所述,ComBat基于以下等式对数据X的特征v进行校正,其中i为站点,j为扫描:

     其中,αv是该边的总体测量值,γi,v是站点i和特征v的加性站点效应,δi,v是站点i和特征v的乘性站点效应30。然而,除非以交叉验证的方式进行,否则在组合的训练数据和测试数据上估计αv、γi,v和δi,v时会发生泄露。在实践中,这些参数应该只在训练数据中估计,然后应用于校正训练数据和测试数据中的站点效应。关键的是,我们在单个数据集内执行站点校正,其中成像参数通常在站点之间是协调一致的。因此,在其他情况下,如将小数据集合并为一个大型研究时,我们可能低估了站点的影响。

      另一种常见的泄露形式是协变量回归。例如,已经表明,以非交叉验证的方式从整个数据集中回归出协变量/混杂因素会对预测性能产生负面影响。以下方程描述了从整个数据集中回归出协变量,对于大小为[N x p]的特征X、大小为[N x (k + 1)]的协变量C(包括截距项)以及OLS(普通最小二乘法)解β^:

      上面通过使用训练数据和测试数据来寻找OLS解β^,从而发生了泄露。在交叉验证折叠内执行协变量回归是避免泄露的推荐解决方案:

       上述方程通过仅在训练数据中寻找OLS解β^,并随后将其应用于测试数据,从而避免了泄露。几个先前的研究比较了交叉验证和非交叉验证的协变量回归,我们在这里通过在三种表型和四个数据集中从泄露的角度评估它们,从而在这些先前的工作基础上进行扩展。

受试者水平泄露

      神经影像学数据集,如ABCD和HCPD,通常对双胞胎或兄弟姐妹进行过度采样。考虑到大脑结构和功能的遗传性,应在分析管道中特别考虑家庭结构,例如在置换检验中。在这项工作的背景下,在训练集中有一个家庭成员而在测试分割中有另一个家庭成员是泄露的一种形式。例如,在从高度遗传的大脑网络预测高度遗传表型的假设情况下,该模型可以记住训练集中一个家庭成员的数据,并强烈预测测试集中另一个家庭成员的表型。然而,按家庭而不是个体受试者水平将数据分成交叉验证折可以防止泄露。如果一个数据集包含来自500个独特家庭的1000名参与者,则5折交叉验证应包括属于随机选择的400个家庭的训练数据,以及属于其他随机选择的100个家庭的测试数据。

       另一种可能的泄露情况是将同一参与者的各种扫描视为单独的样本,我们称之为受试者泄露。这可能包括,例如,将纵向数据视为横断面数据,或将同一参与者的各种fMRI采集运行(或任务)作为单独的数据点。为了评估受试者泄露的极端版本,我们考虑了数据集中某一百分比的受试者重复的情况。例如,在一个包含1000名参与者的假设数据集中,20%的受试者泄露将在数据集中包括随机参与者的额外200次重复,总数据集大小为1200。然后,在这个更大的样本中,我们重复嵌套交叉验证,并将预测性能结果与原始样本进行比较。在这种形式中,受试者泄露与纵向或重复测量研究不能直接比较,因为我们正在复制完全相同的扫描。然而,我们可以使用重复的受试者来演示泄露的概念。值得注意的是,我们没有在受试者泄露中考虑家庭结构,否则泄露的受试者将始终在相同的训练或测试分割中。

评估指标

      我们的主要评估指标是真实表型和预测表型之间的Pearson相关系数r。该评估指标不一定反映预测能力,但通常用于建立大脑-行为关系。此外,我们报告了交叉验证R2,也称为q2,定义如下:

其中,y和ypred分别是观察到的和预测的行为,是观察到的行为的平均值。性能指标是通过跨折叠连接预测来计算的,然后对交叉验证的100个随机种子计算这些指标。重要的是,当模型预测给出的均方误差高于预测平均值时,q2有时会大幅为负。

样本量

     为了评估样本量和泄露之间的相互作用,我们从ABCD、HBN、HCPD和HBN中随机抽取了N = 100、200、300和400名参与者,无放回。ABCD数据仅从四个最大的站点(总N = 2436)重新采样,以避免在重新采样后出现特定站点只有一个数据点的ComBat问题。此外,对于具有家庭结构的两个数据集(ABCD和HCPD),数据是按家庭而不是按个人重新采样的,以保持亚样本中相关参与者的大致相同比例。我们对每个数据集和样本量重复重采样过程10次,并且对于每个重新采样的数据集,我们在5折嵌套交叉验证的10次重复中评估了黄金标准和泄露预测性能。

结构连接组分析

      我们的结构连接组分析包括来自HCPD数据集的635名参与者。我们从635名参与者的扩散张量数据开始。然后,我们校正了磁化率伪影,并应用DSI-studio使用广义q采样成像重建扩散数据。最后,我们使用Shen 268节点图谱的自动纤维跟踪创建了结构连接组。

附加模型

      我们在另外两个模型中评估了泄露的影响:支持向量回归(SVR)和基于连接组的预测建模(CPM)。在这两种情况下,我们都执行了5%的特征选择,如上所述。对于SVR,使用了径向基函数,我们对L2正则化参数(C = 10{-3,-2,-1,0,1,2,3})进行了网格搜索,其中C与正则化强度成反比。对于CPM,将正负特征组合成一个数字,然后拟合一个单变量线性回归模型。

结果

      在我们的四个数据集中,每个数据集都获得了静息状态fMRI数据:青少年大脑认知发展(ABCD)研究(N = 7822-7969)、健康大脑网络(HBN)数据集(N = 1024-1201)、人类连接组计划发展(HCPD)数据集(N = 424-605)和费城神经发育队列(PNC)数据集(N = 1119-1126)。在整个工作中,我们使用5折交叉验证、5%特征选择和L2正则化参数的网格搜索,通过岭回归预测年龄、注意力问题和矩阵推理。每个数据集的具体测量在方法部分进行了描述,但选择这三个广泛的表型是因为它们在本研究的所有数据集中都可用。此外,这三个表型适合用于基准测试泄露,因为它们跨越了广泛的效果大小,年龄的预测性能很强,矩阵推理的性能中等,注意力问题的性能较差。

      我们首先评估了HCPD中泄露对预测的影响(第"非泄漏管道的性能"–"受试者水平泄露"节),然后在其他三个数据集(ABCD、HBN、PNC)中显示了泄露的影响(第"其他数据集中性能评估"节)。此外,我们比较了模型系数(第"泄漏和非泄漏管道中的系数比较"节)、改变了样本量(第"样本量的影响"节)并进行了敏感性分析(第"敏感性分析"节)。本研究中使用的泄露类型在图1中进行了总结,并在"方法"部分进行了进一步详述。

图1:本研究中使用的预测管道汇总
      可能发生的各种泄露形式以橙色显示。在将数据分成训练集和测试集之前,可能会发生特征泄露、泄露的站点校正、泄露的协变量回归和受试者泄露。在数据分割期间可能会发生家庭泄露。

非泄漏管道的性能

      我们评估了四种非泄漏管道,发现不同的分析选择导致不同的预测性能(图2),通过Pearson相关系数r和交叉验证R2(也称为q2)进行评估。我们的黄金标准模型包括在交叉验证方案内进行协变量回归、站点校正和特征选择,并考虑家庭结构进行分割。它在注意力问题上没有预测性能(中位数r = 0.01,q2 = -0.13),在年龄上表现出色(r = 0.80,q2 = 0.63),在矩阵推理上表现中等(r = 0.30,q2 = 0.08)。值得注意的是,当模型预测给出的均方误差高于预测平均值时,q2可能为负,就像注意力问题的情况一样。不包括站点校正的性能几乎与黄金标准模型相同(|Δr| < 0.01,Δq2 < 0.01)。然而,不回归协变量会膨胀所有三个表型的r,但对q2有不同的影响,包括注意力问题(Δr = 0.05,Δq2 = -0.08)、年龄(Δr = 0.06,Δq2 = 0.11)和矩阵推理(Δr = 0.05,Δq2 = 0.01)。虽然不是本文的主要重点,但这些结果突出了预测性能如何随不同的分析选择而变化,特别是关于是否从数据中回归协变量。

图2:非泄漏管道在HCPD中的预测性能,包括黄金标准、省略协变量回归、省略站点校正以及同时省略协变量回归和站点校正。

      行表示不同的非泄漏分析选择,列显示不同的表型。黑条表示黄金标准模型在随机迭代中的中位数性能,黑条的确切值显示为中位数r,rmed。直方图显示了5折交叉验证的100次迭代的预测性能。另见补充图1。

特征泄露

      应该在训练数据中选择特征,然后将其应用于测试数据。当在组合的训练和测试数据中选择特征时,就会发生特征泄露。特征泄露会膨胀每个表型的预测性能(图3)。年龄的膨胀很小(Δr = 0.03,Δq2 = 0.05),矩阵推理的膨胀较大(Δr = 0.17,Δq2 = 0.13),注意力问题的膨胀最大(Δr = 0.47,Δq2 = 0.35)。值得注意的是,年龄具有很强的基线性能,受特征泄露的影响最小,而注意力问题的基线性能最差,受特征泄露的影响最大。此外,注意力问题的预测从偶然水平(r = 0.01,q2 = -0.13)变为中等(r = 0.48,q2 = 0.22),这突出了特征泄露可能阻碍reproducibility efforts的潜力。

图3:与黄金标准相比,HCPD中泄露特征选择的预测性能。行表示不同的泄露类型,列显示不同的表型。黑条表示黄金标准模型在随机迭代中的中位数性能,直方图显示了5折交叉验证的100次迭代的预测性能。另见补充图1。

协变量相关泄露

      本研究中与协变量相关的泄露形式包括在组合的训练和测试数据中(即在交叉验证折叠之外)校正站点差异和执行协变量回归(图4)。泄露的站点校正对性能几乎没有影响(Δr = -0.01-0,Δq2 = -0.01-0.01)。与本研究中的其他泄露形式不同,泄露的协变量回归降低了注意力问题(Δr = -0.06,Δq2 = -0.17)、年龄(Δr = -0.02,Δq2 = -0.03)和矩阵推理(Δr = -0.09,Δq2 = -0.08)的性能。这些结果表明,泄露不仅可以通过虚假夸大性能来阻碍可重复性,还可以通过低估真实效应大小来阻碍可重复性。

图4:HCPD中与协变量相关的泄露形式的预测性能,包括泄露的站点校正和泄露的协变量回归。行表示不同的泄露类型,列显示不同的表型。黑条表示黄金标准模型在随机迭代中的中位数性能,直方图显示了5折交叉验证的100次迭代的预测性能。另见补充图1。

受试者水平泄露

      由于神经影像学数据集中经常对家庭进行过度采样,因此通过家庭结构进行的泄露可能会影响预测模型。考虑到大脑结构和功能的遗传性,如果一个家庭成员在训练集中而另一个在测试集中,则可能发生泄露。家庭泄露不影响年龄或矩阵推理的预测性能(Δr = 0.00,Δq2 = 0.00),但确实略微提高了注意力问题的预测性能(Δr = 0.02,Δq2 = 0.00;图5)。

图5:HCPD中受试者水平泄露形式的预测性能。这些包括家庭泄露和三个不同水平的受试者泄露。行表示不同的泄露类型,列显示不同的表型。黑条表示黄金标准模型在随机迭代中的中位数性能,直方图显示了5折交叉验证的100次迭代的预测性能。另见补充图1。

      此外,当重复测量数据(例如,多个任务)被错误地视为单独的参与者或数据被意外复制时,可能会发生受试者水平泄露。在这里,我们考虑后一种情况,其中数据集中某一百分比的受试者被重复(称为受试者泄露),分为三个不同的水平(5%、10%、20%;图5)。在所有情况下,受试者泄露都会膨胀预测性能,20%的受试者泄露对注意力问题(Δr = 0.28,Δq2 = 0.19)、年龄(Δr = 0.04,Δq2 = 0.07)和矩阵推理(Δr = 0.14,Δq2 = 0.11)的影响最大。与特征泄露中看到的趋势类似,受试者泄露的影响对基线性能较弱的模型更为显著。总的来说,这些结果表明,家庭泄露在某些情况下可能影响很小,但通过重复测量(即受试者泄露)的潜在泄露可能会大大膨胀性能。

ABCD中的附加家庭泄露分析

       由于本研究中包含家庭信息的两个数据集主要包含没有任何其他家庭成员的参与者(HCPD:471/605,ABCD:5868/7969名参与者没有家庭成员),我们进行了几个附加实验,以确定在家庭比例较大时家庭泄露的影响。我们使用ABCD而不是HCPD进行这些实验,因为ABCD在数据集中有更多具有多个成员的家庭。

      首先,ABCD仅限于双胞胎(N = 563对双胞胎,共1126名参与者),之后我们对所有三种表型和模型类型执行了100次5折交叉验证。在一种情况下,家庭结构在交叉验证分割中得到考虑。在另一种情况下,家庭结构被忽略,构成泄露。双胞胎数据集中的泄露表现出预测性能的轻微到中度提高(图6),与使用整个数据集时不同。年龄的膨胀为Δr = 0.04,矩阵推理和注意力问题的膨胀为Δr = 0.02。

图6:ABCD中黄金标准与双胞胎/家庭泄露的预测性能比较。黑条表示黄金标准模型在随机迭代中的中位数性能,直方图显示了20折交叉验证的100次迭代的预测性能。另见补充图2-4。

      我们包括几个附加表型和模型,以比较泄露如何影响双胞胎研究(补充图2),结果相似。双胞胎对之间的表型相似性与泄露导致的性能变化之间没有强关系(补充图3)。此外,基于模拟研究,随着属于具有多个个体的家庭的参与者百分比的增加,泄露效应增加(补充图4)。

附加数据集中性能评估

      与HCPD相比,我们在ABCD、HBN和PNC的11个管道中发现了类似的趋势(补充图5和6)。虽然在HCPD或HBN中排除站点校正几乎没有影响,但在ABCD中有小影响(Δr = 0.01-0.02,Δq2 = 0.00-0.01)。此外,与基线相比,不执行协变量回归通常会膨胀注意力问题(Δr = 0.02-0.05,Δq2 = -0.08-0.04)、年龄(Δr = -0.01-0.06,Δq2 = 0.00-0.11)和矩阵推理(Δr = 0.01-0.05,Δq2 = -0.02-0.01)的性能。

      在所有数据集和表型中,泄露特征选择和受试者泄露(20%)导致最大的性能膨胀。特征泄露根据数据集和表型具有不同的影响(Δr = 0.03-0.52,Δq2 = 0.01-0.47)。样本量最大的数据集(ABCD)受泄露特征选择的影响最小,基线模型较弱的数据集受特征泄露的影响更大。受试者泄露(20%)也在所有数据集和表型中膨胀性能(Δr = 0.06-0.29,Δq2 = 0.03-0.24)。证实HCPD的结果,泄露的协变量回归是唯一一种始终降低性能的泄露形式(Δr = -0.09-0.00,Δq2 = -0.17-0.00)。家庭泄露(Δr = 0.00-0.02,Δq2 = 0.00)和泄露的站点校正(Δr = -0.01-0.00,Δq2 = -0.01-0.01)几乎没有影响。

      图7总结了所有四个数据集和三个表型中每个管道相对于黄金标准的性能变化。总的来说,在这项研究中,只有泄露特征选择和受试者泄露会膨胀预测性能。

图7:所有数据集和表型中所有管道与黄金标准管道之间性能差异的评估,用于Pearson's r和q2。该图按照两个不同的性能指标,a)Pearson's r和b)q2,从性能膨胀最大(顶部)到性能缩水最大(底部)进行排序。箱线图元素定义如下:中心线是所有数据集、表型和迭代(每个数据集/表型组合100次)的中位数;箱线限制是上下四分位数;须线是四分位数范围的1.5倍;点是离群值。另见补充图5和6。

比较泄露和非泄露管道中的系数

      确定泄露和非泄露管道的性能是否相似只能说明部分情况,因为两个模型可能具有相似的预测性能,但学习完全不同的脑行为关系。因此,确定各种形式的泄露可能会如何改变模型系数,是了解泄露可能影响的同等重要方面。我们首先对交叉验证的五个折叠的系数进行平均,并计算这些系数与黄金标准模型系数之间的相关性(图8)。排除站点校正(中位数rcoef = 0.75-0.99)导致系数发生轻微变化。同时,排除协变量回归(中位数rcoef = 0.31-0.84)或同时排除协变量回归和站点校正(中位数rcoef = 0.32-0.81)导致系数发生中度变化。在泄露形式中,不出所料,泄露特征选择与黄金标准系数最不相似(中位数rcoef = 0.39-0.72)。其他显著影响系数的泄露形式包括家庭泄露(中位数rcoef = 0.79-0.94)和20%受试者泄露(中位数rcoef = 0.74-0.93)。否则,泄露管道和黄金标准管道之间的系数非常相似。我们还比较了11个分析管道中每对管道的系数(补充图7)。有趣的是,尽管排除协变量回归或执行泄露特征选择的系数与黄金标准系数相对不同(中位数rcoef = 0.31-0.84),但这些系数彼此相对相似(中位数rcoef = 0.68-0.92)。这一结果可以通过协变量对整个数据集中的脑行为关联的贡献来解释。

图8:黄金标准与各种形式泄露之间系数的相似性。
      方框按泄露系列着色:橙色(非泄露分析选择)、蓝色(特征泄露)、绿色(协变量相关泄露)、黄色(受试者水平泄露)。箱线图元素定义如下:中心线是100次随机迭代的中位数;箱线限制是上下四分位数;须线是四分位数范围的1.5倍;点是离群值。某些值(如PNC中的泄露站点校正)被省略,因为相关字段(如站点)不存在。另见补充图7和8。ABCD青少年大脑认知发展,HBN健康大脑网络,HCPD人类连发展接组计划PNC费城神经发育队列。

      除了在边级别关联系数外,我们还考虑了10个典型网络的特征选择的相似性(补充图8)。我们计算了在每个55个子网络中选择为特征的边数,这些子网络被定义为10个典型网络中特定对之间的连接。然后,我们针对子网络大小进行了调整,并比较了不同泄露类型的等级相关性。与之前的分析类似,不执行协变量回归会改变子网络中特征的分布(中位数rspearman,network = 0.28-0.88)。在泄露形式中,与黄金标准模型相比,泄露特征选择显示出最大的网络差异(中位数rspearman,network = 0.25-0.85),而其他形式的泄露显示出较小的差异(中位数rspearman,network = 0.75-1.00)。

样本量的影响

      先前呈现的所有结果都以完整样本量(ABCD:N = 7822-7969,HBN:N = 1024-1201,HCPD:N = 424-605,PNC:N = 1104-1126)研究了四个数据集。然而,尽管这些可能导致结果的可重复性降低,但在神经影像研究中,较小的样本量很常见。因此,考虑泄露如何影响各种样本量下报告的预测性能至关重要。对于泄露特征选择、泄露站点校正、泄露协变量回归、家庭泄露和20%受试者泄露,我们计算了Δr = rleaky-rgold,其中rleaky是泄露管道的性能,rgold是单个5折交叉验证种子的黄金标准非泄露管道的性能。对于泄露类型、样本量(N = 100、200、300、400)和数据集的每个组合,对10个不同的重采样进行了Δr评估,每个重采样进行10次5折交叉验证迭代(总共超过20,000次5折交叉验证评估;图9)。总的来说,与最大样本量(N = 400)相比,最小样本量(N = 100)的Δr变异性要大得多。例如,对于ABCD的矩阵推理预测,N = 100时家庭泄露的Δr范围为-0.34至0.25,N = 400时为-0.12至0.13。另一个例子是ABCD矩阵推理预测中的站点校正,N = 100时Δr范围为-0.13至0.06,N = 400时为-0.11至0.03。虽然并非每个数据集和表型预测在小样本量下的泄露管道中都有较大的性能变异性(例如,HBN年龄预测),但总体趋势表明,与大样本相比,泄露在小样本中可能更不可预测,因此更危险。

图9:各种类型泄露和四种样本量(N = 100、200、300、400)下泄露与黄金标准性能之间的差异。行表示数据集,列显示表型。对于每种泄露类型(x轴),有四个结果(N = 100、200、300、400)。对于每个样本量,我们对10个随机种子的重采样重复进行了10次5折交叉验证迭代。箱线图元素定义如下:中心线是所有子采样种子和交叉验证迭代的中位数;箱线限制是上下四分位数;须线是四分位数范围的1.5倍;点是离群值。另见补充图9。ABCD青少年大脑认知发展,HBN健康大脑网络,HCPD人类发展连接组计划,PNC费城神经发育队列。

       但是,当对给定子样本的多个k折分割取中位数性能时,除特征和受试者泄露外,大多数泄露类型的影响都会减小(补充图9)。通常,最佳实践是执行至少100次k折分割迭代,但由于本研究中有许多分析和管道,我们只执行了10次迭代。例如,对于ABCD矩阵推理预测,在10次迭代中取中位数导致所有形式的泄露的Δr值范围略小(N = 400),包括特征泄露(多次迭代Δrmultiple = 0.17-0.67,单次迭代Δrsingle = 0.10-0.71)、泄露站点校正(Δrmultiple = -0.11-0.03,Δrsingle = -0.06-0.01)、泄露协变量回归(Δrmultiple = -0.08至-0.01,Δrsingle = -0.10-0.01)、家庭泄露(Δrmultiple = -0.02-0.04,Δrsingle = -0.12-0.13)和20%受试者泄露(Δrmultiple = 0.21-0.33,Δrsingle = 0.17-0.43)。总的来说,执行多次k折交叉验证迭代减少了泄露的影响,但并没有消除泄露的影响。在某些情况下,特别是在小样本量时,泄露仍然会导致性能发生较大变化。

敏感性分析

      进行了两个主要的敏感性分析以支持我们发现的稳健性。首先,我们分析了泄露对另外两个模型(SVR、CPM)的影响。其次,我们使用结构连接组进行了类似的分析,以证明泄露对功能连接以外的影响。

      我们对支持向量回归(SVR)(补充图10和12)和基于连接组的预测建模(CPM)2(补充图11和13)重复了分析,发现泄露的影响趋势相似。与岭回归(年龄:r = 0.25-0.80,q2 = 0.06-0.63;注意力问题:r = -0.01-0.13,q2 = -0.21-0.00;矩阵推理:r = 0.25-0.30,q2 = 0.06-0.08)和SVR(年龄:r = 0.24-0.80,q2 = 0.04-0.64;注意力问题:r = 0.00-0.12,q2 = -0.15至-0.09;矩阵推理:r = 0.25-0.34,q2 = 0.05-0.10)相比,CPM的黄金标准性能通常略低(年龄:中位数r = 0.16-0.61,q2 = 0.02-0.37;注意力问题:r = -0.04-0.11,q2 = -0.25-0.00;矩阵推理:r = 0.18-0.27,q2 = 0.02-0.05)。值得注意的是,与岭回归(Δr = 0.02-0.52,Δq2 = 0.02-0.47)和SVR(Δr = 0.02-0.48,Δq2 = -0.01-0.38)相比,CPM受泄露特征选择的影响较小(Δr = -0.04-0.39,Δq2 = 0.00-0.38)。此外,受试者泄露对SVR的影响最大(Δr = 0.06-0.45,Δq2 = 0.10-0.31),其次是岭回归(Δr = 0.04-0.29,Δq2 = 0.03-0.24)和CPM(Δr = 0.00-0.17,Δq2 = 0.00-0.16)。无论不同模型之间效应大小的差异如何,趋势通常都是相似的。

     此外,我们将泄露分析从功能连接组扩展到HCPD数据集中635名参与者的结构连接组。在HCPD结构连接组数据中,矩阵推理、注意力问题和年龄的黄金标准预测表现出低到中等性能(图10和补充图11)(矩阵推理:中位数r = 0.34,q2 = 0.12;注意力问题:r = 0.11,q2 = -0.07;年龄:r = 0.73,q2 = 0.53)。最能提高性能的泄露形式是特征泄露(Δr = 0.07-0.57,Δq2 = 0.12-0.52)和受试者泄露(Δr = 0.05-0.27,Δq2 = 0.06-0.20)。与其对功能连接数据的影响相比,在这种特定情况下,泄露协变量回归显示出较温和的性能降低(Δr = -0.04-0.00,Δq2 = -0.04-0.00)。尽管有细微差异,但这些结构连接数据的结果遵循与功能连接数据相似的趋势。

图10:使用r评估结构连接组中矩阵推理、注意力问题和年龄预测的泄露类型。
       行显示不同的泄露类型,列显示不同的表型。黑色条表示黄金标准模型在随机迭代中的中位数性能,直方图显示了5折交叉验证的100次迭代中的预测性能。另见补充图14。

讨论

      在这项工作中,我们展示了ABCD、HBN、HCPD和PNC数据集中五种可能的泄露形式对基于连接组的预测模型的影响。在某些情况下,泄露导致预测严重膨胀(例如,泄露特征选择)。在其他情况下,几乎没有差异(例如,泄露站点校正)。总的来说,泄露管道的整体效应在本工作研究的不同表型、模型和连接组中表现出相似的趋势。此外,缩小到更小的样本量(在神经影像学文献中很典型)会增加泄露的影响。泄露从来都不是正确的做法,但量化其在神经影像学中的影响仍然很重要,以准确了解泄露可能在多大程度上阻碍神经影像学的可重复性。考虑到本工作中发现的泄露的可变影响,在神经影像学中严格分割测试和训练样本对于准确估计预测模型的性能尤其重要。

      特征泄露被广泛认为是一种不好的做法,正如预期的那样,它严重膨胀了预测性能。尽管特征泄露在文献中可能很少见,但它可以显著提高模型性能,从而阻碍可重复性。例如,最近的一项工作表明,一篇预测青少年自杀意念的高调文章在消除特征选择泄露后没有预测能力。根据谷歌学术,这篇原始论文自2017年发表以来已被引用254次,现已被撤回。因此,重申避免特征泄露的重要性至关重要。虽然避免特征泄露可能看起来很明显,但它可能以更微妙的方式发生。例如,可以研究哪些网络在整个数据集的两组之间存在显著差异,然后使用这些网络创建预测模型。值得注意的是,由于ABCD的样本量大,特征泄露的影响较小。换句话说,当使用数千个样本时,选择的特征可能在不同的训练数据折叠中是稳健的。这一结果与最近关于关联研究的发现一致。总的来说,通过在公共存储库上共享代码可以减少特征泄露。虽然这需要额外的工作,但我们强烈敦促作者在所有情况下共享其分析代码,并在适当时共享预处理数据。然后,社区可以快速轻松地重现结果并在代码中查找潜在的泄露。

       同样,受试者泄露也导致了膨胀的影响。在具有多个fMRI运行、时间点或任务的数据集中,更可能发生这种情况。例如,一份备受关注的预印本使用深度学习从胸部X光片预测肺炎,作者没有考虑患者有多个扫描,导致训练集和测试集之间发生泄露。幸运的是,这种泄露被社区成员发现,并在随后版本的预印本中迅速得到纠正,这说明编写详细的方法并共享代码的重要性。当使用每个个体的多个扫描进行预测时,应格外小心,例如在收集多个任务扫描或纵向数据时。

      我们通常将泄露与膨胀的预测性能联系在一起。然而,泄露协变量回归会降低预测性能。我们的结果证实了之前的工作,表明协变量回归必须在交叉验证循环内执行,以避免效应量的虚假缩小。有趣的是,执行协变量回归本身可能导致泄露在决定是否以及如何实施协变量回归时,这是另一个需要考虑的因素。

      除特征和受试者泄露外,在使用大样本量时,没有其他泄露会显著提高预测性能。值得注意的是,泄露站点校正不会影响预测性能。由于属于多个个体家庭的参与者比例很小,使用整个数据集时,家庭泄露的影响很小或没有影响。不过,双胞胎子集和各种模拟表明,当数据集中多成员家庭的比例较大时,家庭泄露的影响更加明显。像ABCD和更广泛的HCP生命周期数据集这样的大型公共数据集越来越多地跨站点,参与者之间存在复杂的嵌套依赖关系(即双胞胎)。这些因素有利于更大的样本量,以获得更好的统计功效和更具代表性的样本,这可以最小化模型偏差。然而,考虑这些因素会迅速增加预测管道的复杂性。因此,这些结果对更广泛的领域来说是令人宽慰的。总的来说,它们可能意味着具有这些形式泄露的结果仍然有效,至少在这些数据集和表型中是如此。不过,不能保证这些形式的泄露都不会提高性能。因此,避免数据泄露仍然是确保有效结果所必需的。

     在这项工作的表型中,预测性能最好的年龄受泄露的影响最小。这一结果表明,泄露可能更多地影响具有较弱大脑-行为关联的表型。当存在强大的大脑-行为关系时,无论泄露与否,模型都可能捕获相关模式。然而,当大脑-行为关系较弱时,模型可能主要依赖于泄露产生的模式,从而可能导致泄露在效应量较弱的行为中产生更大影响。换句话说,当效应非常弱时(例如,本研究中的注意力问题),泄露似乎会超过真实效应。因为大脑-行为关联研究中的效应量通常很弱,所以对泄露的关注尤其重要。然而,需要注意的是,本研究在三种表型中测试了泄露的影响,并没有全面测试所有效应量。

       至关重要的是,泄露在较小的数据集中表现出更多变的影响。因此,在小样本中考虑泄露更为关键。所有研究人员都应该避免泄露,但那些使用小型临床样本或患者群体的研究人员应该特别小心。对多次k折交叉验证迭代(即不同的随机种子)的模型进行中位数性能计算可以减轻膨胀。这个例子突出了执行多次(≥100)k折交叉验证的好处。虽然k折交叉验证是神经影像学中最常见的评估形式,但训练/测试分割也并不罕见。考虑到训练/测试分割通常只针对一个随机种子执行,因此在使用训练/测试分割时,小样本量的泄露可能是一个更大的问题。

       除了对性能的影响,我们发现泄露也影响模型解释,进而影响神经生物学解释。特征泄露的系数与黄金标准明显不同,这并不奇怪,因为泄露特征选择依赖于一个特征子集,而黄金标准管道为交叉验证的每个折叠选择不同的特征子集。除此之外,省略协变量回归导致系数最显著的差异。这一结果突出表明,除了避免泄露之外,研究人员还应考虑各种分析选择可能如何影响结果。

      本工作中提出的结果侧重于神经影像学,特别是功能和结构连接预测研究。许多策略可以帮助防止神经影像学和其他机器学习应用中的泄露。这些策略包括仔细开发和共享代码、替代验证策略、模型信息表、对自己结果的怀疑以及跨学科合作。编写和维护代码应包含几个方面以减少泄露的可能性,包括在编写代码之前制定分析计划、使用维护良好的软件包以及共享代码。分析计划应该提前制定,要么非正式地,要么在适当的情况下通过预注册正式制定。当尝试更多的管道时,特别是在寻找显著结果(即p-hacking)时,更有可能发生泄露。预定义的计划可以通过详细说明如何选择特征、训练哪些模型以及如何处理可能的协变量和嵌套结构来最大限度地减少泄露的可能性。减少泄露可能性的另一个建议是使用维护良好的软件包。例如,Scikit-learn有一个经过全面测试的k折交叉验证包,而从头开发k折交叉验证代码可能会导致意外泄露。除了许多其他好处之外,共享代码,特别是有良好文档记录的代码,可以让外部审查员调查已发表的管道是否存在泄露,从而减少泄露的影响。同样,虽然并非总是可能,但分发预处理数据可以使审查员或那些想要验证预测模型有效性的人更容易、更省时地重现结果。

      此外,大多数神经影像学论文都是通过训练/测试分割或k折交叉验证来评估的。然而,替代验证策略,如锁箱或外部验证,可能会降低泄露的可能性。这两种策略都有助于维持训练数据和测试数据之间更清晰的分离,其中锁箱需要将数据的一个子集留到最终评估,而外部验证则包括将模型应用于不同的数据集。减少泄露普遍性的另一个策略是使用模型信息表,如Kapoor和Narayanan提出的那样。模型信息表允许作者、审稿人和公众反思工作并识别可能的泄露。然而,当数据无法共享时,可能很难验证模型信息表的准确性。这一限制对于神经影像数据集尤其如此,这些数据集通常需要应用程序才能访问数据。因此,我们还建议对自己的结果持健康的怀疑态度。例如,如果机器学习管道导致一个令人惊讶的结果,应该通过要求合作者查看自己的代码或在合成数据上重复分析来仔细检查代码。最后,跨学科合作,将领域专家和机器学习专家纳入其中,将有助于防止泄露。领域专家可以带来对数据集细微差别的认识(例如,神经影像数据集中家庭结构的普遍性)。相比之下,机器学习专家可以帮助领域专家训练模型以避免泄露。

      虽然这项研究调查了几个数据集、模态、表型和模型,但仍然存在一些局限性。在这项工作的许多情况下,泄露对预测结果几乎没有或根本没有影响,但这一发现并不意味着在任何情况下泄露都是可以接受的。另一个局限性是,这项研究不可能涵盖所有数据集和表型的所有泄露形式。正如"方法"部分所详述的那样,本研究没有考虑其他可能的泄露形式,如通过超参数选择的泄露。此外,我们在这项工作中研究了儿童、青少年和年轻成人队列以及协调良好的数据集,但人口和数据集质量的差异可能会改变泄露的影响。例如,我们表明家庭泄露在双胞胎研究中有更大的影响。作为另一个例子,在站点校正的情况下,如果患者组在站点A扫描,而健康对照组在站点B扫描,那么站点泄露可能会产生很大影响。在预测环境中,可能有更合适的方法来解释可能的协变量或站点差异,例如将神经影像数据模型与仅使用协变量或留一站点预测构建的模型进行比较。尽管如此,我们仍然将协变量回归和站点校正包括在我们的分析中,因为它们在该领域很常见,并且在使用预测来解释大脑-行为关系的普遍性方面仍然可能非常适合。此外,数据集之间扫描长度的差异可能会导致数据集之间性能的差异。然而,它不应该影响本文关于机器学习模型中泄露的主要结论。此外,我们使用了功能连接大脑表型研究中最常见的模型类型。然而,由于神经网络等复杂模型具有记忆数据的能力,因此它们可能更容易受到泄露的影响。同样,还存在许多其他评估指标,如均方误差和平均绝对误差;我们主要关注r,其次是q2,因为r是神经影像学特征预测研究中最常见的性能指标

       另一个局限性是,泄露并不总是像本文中定义的那样明确。一些例子是普遍的泄露,如忽略家庭结构、意外复制数据以及在合并的训练和测试数据中选择特征。在其他情况下,训练数据和测试数据是否独立可能取决于目标。例如,可能希望开发一个将应用于来自新站点的数据的模型,在这种情况下,留一站点预测是必要的。在这里,如果在训练模型时包括测试站点的数据,则会存在泄露。然而,其他应用,如本文中提出的应用,可能不需要按站点分离数据,而是可以应用站点校正方法。类似地,如果希望证明模型在诊断组之间具有普遍性,则应在一个组上构建模型,并在另一个组上进行测试。泄露的应用相关性质突出了在避免泄露方面注意细节和周到实验的重要性。

结论:

       对机器学习可重复性的担忧可以部分归因于泄露。正如预期的那样,特征和受试者泄露会夸大预测性能。积极的是,许多形式的泄露没有表现出夸大的结果。此外,更大的样本量和运行多个训练和测试分割可以缓解夸大的结果。由于泄露的影响千差万别,事先并不知道,最佳做法仍然是保持警惕,完全避免数据泄露。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多