1前言 自从1992年引进功能核磁共振成像(fMRI),科学家们可以无创地观察人类大脑活动。在传统的fMRI中,可以通过测量血氧水平依赖(BOLD)信号来估计大脑区域的活动,该信号反应了与神经活动相关的血氧变化。在BOLD fMRI最常见的一种形式中,研究人员通过对比控制条件下的BOLD信号和感兴趣条件下的BOLD信号来得到与特定认知功能相关的活动。通过这种方式,任务态fMRI使神经科学家对人类行为的大脑机制—从基本的知觉到复杂的思维有独特的见解,并使临床医生和心理健康研究人员得以直接测量与疾病有关的器质性功能障碍。 最初,任务态fMRI主要用于研究人脑支持的一般功能。研究人员可以测量被试在任务条件和控制条件下的激活差异,再将个体间的差异进行平均则可以得到群体效应。因此,fMRI任务可以优化在对比特定实验条件时感兴趣区域(ROI)或回路中引起的稳健的激活。例如,当人们对比情绪面孔与几何形状时,可以观察到杏仁核活动的增加;对比人们赢钱和输钱时,可以观察到腹侧纹状体活动的增加。通过使用这种被试内方法所引起的稳健的大脑活动,研究人员可以用相同的fMRI任务来研究被试间的差异。其背后的逻辑很简单:如果一个大脑区域在执行任务时被激活,那么该区域个体激活程度的差异可能会导致个体行为的差异,以及任何相关的疾病风险。因此,如果人们在看到威胁刺激时激活杏仁核,那么人与人之间杏仁核激活程度的差异则标志着他们在威胁敏感性和相关临床现象方面的差异(比如焦虑和抑郁)。就这样,fMRI从研究大脑如何工作的工具转变为研究个体大脑任何不同的工具。 使用任务态fMRI来研究人与人之间的差异预示着它可能成为发现大脑疾病生物标记物的强大工具。广义上来说,生物标记物是一种生物学指标,通常用于风险分层、诊断、预后和评价治疗效果。然而,作为一种有用的生物标记物,这个指标首先必须是可靠的。可靠性是指一种测量在类似情况下给出一致结果的能力,它限制了任何测量的预测效用、效力和有效性(图1)。因此,可靠性对于临床应用和研究实践至关重要。可靠性低的测量方法不适合作为生物标记物,也不能预测临床健康结果。也就是说,如果临床医生要用一种测量方法来预测病人未来患病的可能性,那么病人就不能在一次评估中随机获得高分,而在下一次评估中随机获得低分。 为了具有临床相关性的个体差异研究的发展,必须建立可靠的大脑测量方法。对于任务态fMRI的可靠性,个别研究的变异性太高,通常包含小的重测样本和各种各样的分析方法。此外,对于相同任务的可靠性,这些研究者得出的结论可能是相互矛盾的。这使得任务态fMRI的总体可靠性,以及许多常用的fMRI任务的可靠性在很大程度上是未知的。需要对任务态fMRI的可靠性进行最新的、全面的回顾和元分析,并对最广泛使用的任务态fMRI测量的可靠性进行深入检查。本文作者通过使用两种证据揭示了常用的任务态fMRI测量的可靠性很差。首先是对任务态fMRI区域激活的重测可靠性进行了元分析。其次,在最近收集的两组数据中(HCP和Dunedin研究),分析了在几个常用的fMRI任务的先验ROI中大脑激活的重测可靠性。 图1. 任务态fMRI重测可靠性样本量的大小对检测大脑与行为相关性80%检验力的影响。曲线显示了与行为或临床表型相关的三个水平的可靠性。图像采用R中的pwr.r.test函数绘制。r的值根据附录中的衰减公式指定。ICC= intraclass correlation coefficient,组内相关系数。 2.1 任务态fMRI可靠性的元分析2.1.1筛选研究和数据提取在审查全文之前先筛选所有的标题和摘要。纳入了所有报告BOLD fMRI任务激活的重测可靠性估计的实证文章。文章中正文和补充材料里报告的所有ICCs都被纳入。如果ICCs仅用图形(如柱状图)来描述,作者将根据图形判断其值。仅在脑图上描绘的体素ICCs不包括在内。对于基于2个以上时间点计算的ICC,本文使用间隔的平均值作为间隔值(例如,对于基于3个时间点的ICC,使用时间点1和2之间的时间平均值和时间点2和3之间的时间平均值)。对于那些除了对相同数据的主要分析(例如使用不同的建模策略或排除某些个体)之外还报告了敏感性分析中的ICCs的文章,本文只纳入主要分析中的ICCs。而来自组合任务的ICCs,旨在评估纵向变化的研究或干预研究中的ICCs,以及在文中没有报告ICCs的测量是来自于同一MRI扫描或同一个任务的,或者报告的ICCs是基于其他个体间的激活测量(比如个体内的空间范围激活或多体素模式激活),这些ICCs都不会被纳入后续的分析。 另外,作者还提取了关于样本特征(出版年份、样本量、健康vs.临床)、研究设计(重测间隔、事件相关vs.组块、任务长度和任务类型)和ICC报告(阈值vs.未阈值)的数据。当研究计算多个ICCs,但只报告超过最小阈值的值时,就会发生阈值化。对于每一篇文章,每一个符合上述纳入要求的ICC都被记录下来。 2.1.2统计分析纳入的大多数研究没有报告ICC的标准误差或置信区间(CI)。因此,为了在meta分析中包含尽可能多的估计值,对所有的ICC值使用Fisher r-to-Z转换来估计所有ICC的标准误差。 使用R的metafor包中的工具拟合随机效应多层元分析模型。在这个模型中,ICCs和标准误差在每个唯一的样本、任务中进行平均,重测间隔(或子研究)在每篇文章或研究中进行平均。对于本文报告的结果,为了确保每个子研究的元分析权重仅基于样本量而不是报告的ICCs数量,本文假设每个子研究中ICCs之间的相关性为1。敏感性分析显示,该假设对总体结果的影响非常小(见原文补充材料图S2)。在元分析模型中,将子研究嵌套在研究中,以解释同一研究中估计的ICCs的非独立性。对那些报告阈值化ICC值的子研究进行单独的元分析,因为只报告有统计意义的ICC值会夸大效应量。 为了探究调节变量的影响,本文对所有的1146个ICC拟合了一个单独的随机效应多层模型(因为许多子研究都报告了与一个或多个调节变量有关的ICC值,但又没有在同一个子研究中将这些不同的值进行平均)。调节变量包括任务长度、任务设计(block vs.事件相关)、任务类型(例如,情绪vs.执行控制vs.奖励)、ROI类型(例如,结构或功能)、ROI位置(皮层vs.皮层下)、样本类型(健康vs.临床)、重测间隔、每年被引用次数,以及ICCs是否按显著性设定阈值。所有调节变量同时作为随机效应输入模型。在多水平模型中,ICCs嵌套在子研究中,子研究又嵌套在研究中。这样做是为了解释在同一个子研究中估计的ICCs的非独立性,以及在同一研究中进行的子研究的非独立性。 2.2新数据集的分析2.2.1人类连接组计划(HCP)HCP是一个公开的数据集,包括1,206名参与者,具有大量的结构像和功能像。此外,45名被试参与了两次完整的扫描 (扫描的平均间隔约为140天)。所有被试都没有精神或神经疾病,年龄在25到35岁之间。 HCP中使用的七个任务旨在识别与大脑功能相关的节点。这些任务包括: n-back工作记忆/执行功能任务(针对背外侧前额叶皮层-dlPFC); 赌博-奖励/激励处理任务(针对腹侧纹状体); 由脚、手和舌头的运动组成的运动定位任务(针对运动皮层); 听觉语言任务(针对前颞叶); 社会认知/心理理论任务(针对侧梭状回、颞上沟和其他社交网络区域); 关系处理/维度变化检测任务(针对嘴外侧前额叶皮层-rlPFC); 面部匹配的情绪处理任务(针对杏仁核)。 2.2.2达尼丁多学科健康和发展研究达尼丁研究(Dunedin Study)是对1972年4月至1973年3月在新西兰达尼丁出生的1037个完整出生队列的健康和行为的纵向调查(符合条件的新生儿占91%,52% 为男性),随访至45岁。2016年8月至2019年4月期间收集了结构和功能神经成像数据,参与者年龄为45岁。此外,20名参与者完成了两次完整的扫描(扫描平均间隔为79天)。 本文收集了四个任务的功能磁共振成像,这些任务的目标是四个不同领域的神经中枢:一个面孔匹配情绪处理任务(针对杏仁核),一个Stroop执行功能任务(针对dlPFC和背侧前扣带皮层),一个货币激励延迟奖励任务(针对腹侧纹状体),和一个面孔名称编码情景记忆任务(针对海马体)。 2.2.3定义ROI使用两种常见方法提取大脑区域活动的个体估计。首先,从解剖定义的先验区域提取平均值。确定每个任务的主要ROI,并提取相应的双侧解剖mask内所有体素的平均BOLD信号变化。 接着,使用了基于组水平激活的功能定义区域。在每个任务下,以其解剖ROI 内的峰激活体素为中心绘制5mm球体作为功能ROI。这是一种常用的方法,用于捕捉每个被试的峰激活位置(尽管激活的具体位置在不同被试间存在差异)。 2.2.4可靠性分析提取每个任务、每个ROI和每次扫描会话(session)的个体水平BOLD信号变化估计。采用两因素混合效应ICC对可靠性进行量化,其中扫描会话建模为固定效应,被试建模为随机效应,重测间隔作为不感兴趣的效应。这种混合效应模型称为ICC (3,1),ICC(3,1)=(BMS-EMS)/(BMS+(k-1)*EMS),其中BMS表示被试间均方,EMS表示误差均方,k是评分者或扫描会话的数量(在本文中为2)。ICC(3,1)追踪的是各阶段之间测量结果的一致性,而不是绝对一致性。由于随着时间的推移可能对刺激习惯化,ICC(3,1)通常用于任务态fMRI重测可靠性的研究。 为了更广泛地测试每个任务的可靠性,作者计算了11个任务的所有目标ROI的ICC。因为在HCP和Dunedin的研究中,有三个任务(情感、奖励和执行功能任务)非常相似,并且针对相同的脑区,所以在这两个研究中对这些任务使用了相同的ROI,因此总共对8个ROI进行了可靠性评估。为了进一步可视化可靠性的全局模式,我们还使用AFNI软件中的3dICC_REML.R函数计算了ICC(3,1)的体素映射。最后,为了提供一个评估任务态fMRI可靠性的基准,作者确定了结构像常用的三种重测可靠性:皮质厚度和360个分割或ROI各自的表面积,以及17个皮层下结构的灰质体积。 3结果 3.1任务态fMRI个体差异的可靠性:一项系统综述和元分析本文纳入了56篇符合元分析标准的文章,从90个不同的子研究的1088个参与者中得出1146个ICC估计值,采用66种不同的任务态fMRI范式(Fig. 2)。 这些论文共被引2686次,平均每篇被引48次,每年每篇被引5.7次。在筛选文献过程中,作者发现一些研究人员计算了许多不同的ICCs(跨越多个ROI、对比和任务),但只报告了在统计上显著或者达到最小阈值的ICC,而这种做法会夸大可靠性估计。因此,作者还对无阈值化和阈值化的数据分别进行了分析。 图2. 系统文献综述及元分析流程图 元分析的结果虽然具有启发性但解释起来并不简单。首先,可靠性的估计来自大量的任务和样本,因此单一的元分析可靠性估计可能会掩盖真正可靠的任务态fMRI范式。其次,这些研究使用了不同的扫描仪(有些已经过时)和不同的预处理和分析管道,为了解决这些限制,作者进一步分析了两个新的数据集(这两个数据集使用最先进的扫描仪和分析手段)来评估常用的认知和情感任务中的个体差异。 3.2 任务态fMRI中个体差异的可靠性:在两个新的数据集中分析本文评估了11个常用fMRI任务的先验ROI激活的重测可靠性(见方法部分)。在HCP中,45名参与者使用定制的3T扫描仪(西门子,慕尼黑,德国)扫描了两次,平均间隔140天(SD = 67.1天),使用了七个任务,目标是情感、奖励、执行功能、运动、语言、社会认知和关系处理。在Dunedin 研究中,20名参与者使用3T西门子Skyra扫描了两次,平均间隔79天(SD = 10.3天),使用了四个以情绪、奖励、执行功能和情景记忆为目标的任务。该样本量与meta分析研究中使用的平均样本量相对应。在两项研究中,有三个任务是相似的,允许我们测试任务态fMRI可靠性的可重复性。对于两项研究中的其他8个任务,确定了每个任务的主要目标区域,总共有8个先验ROI(参见方法部分)。 3.2.1 组水平激活为了确保这11个任务被正确地实现和处理,我们对每个任务中感兴趣的对比重新进行计算,分析结果表明,每一个任务在目标ROI上组水平的激活是稳健的(三个共同的任务见图4,其他任务见附录图S4)。 3.2.2 目标区域激活的可靠性作者用四个步骤研究了两个数据集中任务激活的可靠性。首先,测试了每个任务在目标ROI中激活的可靠性。其次,评估了每个任务在其他七个先验ROI中激活的可靠性。这样做是为了测试目标ROI的可靠性是否高于其他(非目标)大脑区域激活的可靠性,并确定任何具有持续高可靠性的任务或区域。第三,分别使用左脑和右脑的激活来重新评估可靠性,以测试对两脑的平均是否会削弱对可靠性的估计。第四,测试了可靠性是取决于结构上的ROI(使用解剖图谱)还是功能上的ROI(使用基于峰值活动位置的一组体素)。 3.2.3 HCP数据集中区域激活的可靠性。图5 分别为HCP(左)和Dunedin研究(右)11个常用的任务态fMRI和3种常用的结构MRI测量的区域激活的重测可靠性。对于每一项任务,在先验目标感兴趣区域(ROI; 黑色圈出)和从其他任务中选择的非目标ROI中估计组内相关系数ICC。非目标ROI为前颞叶(ATL)、背外侧前额叶皮层(dlPFC)、中央前回(PCG)、前外侧前额叶皮层(rlPFC)和腹侧纹状体(VS)。作为基准,三种常见的MRI结构测量方法皮质厚度(CT)、表面积(SA)和皮层下体积的ICCs被描绘为小提琴图,分别代表CT和SA的360个分割和灰质体积的17个皮层下结构的ICCs的分布。为了可视化将ICC为负值的设置为0。EF=执行功能 3.2.4 Dunedin研究中区域激活的可靠性3.2.5 结构测量的可靠性作者还调查了三种常用的结构MRI测量的可靠性:皮层厚度、表面积和皮层下灰质体积,以便为评估任务fMRI的重测可靠性提供基准。与先前的研究证据一致,结构MRI表型具有极好的可靠性(即ICCs>0.9),本文结果表明,目前样本中的全脑和区域结构MRI测量有非常高的重测可靠性(图5)。对于平均皮质厚度,在HCP和Dunedin研究数据集中,ICCs分别为0.953和0.939。在HCP中,分区(parcel-wise)皮层厚度的可靠性平均值为0.886(range=0.547-0.964), ICC高于“一般”阈值占100%,98.6%高于“良好”阈值,94.2%高于“极好”阈值。在Dunedin研究中,parcel-wise皮层厚度的可靠性平均值为0.846(range=0.385-0.975),99.7%的ICCs高于“一般”阈值,96.4%高于“良好”阈值,84.7%高于“极好”阈值。对于表面积,HCP和Dunedin数据集的ICCs分别为0.999和0.996。在HCP中,parcel-wise表面积的平均ICCs为0.937(range=0.526-0.992),ICC的值100%高于“一般”阈值,98.9%高于“良好”阈值,96.9%高于“极好”阈值。在Dunedin研究中,表面积的平均ICCs为0.942(range=0.572-0.991),ICC高于“一般”阈值占100%,99.7%高于“良好”阈值,98.1%高于“极好”阈值。对于皮层下灰质体积,HCP的平均ICCs为0.903(range=0.791-0.984),所有的ICCs都高于“极好“阈值。在Dunedin研究中,ICCs的平均值为0.931(range=0.767-0.979),也是所有的ICCs都高于“极好”阈值。 4 讨论 本文的研究证据表明,常用的任务态fMRI测量不具有发现生物标记物或大脑行为映射所必需的重测可靠性。对任务态fMRI可靠性的元分析显示,重测的平均可靠性系数为0.397,低于良好可靠性所需的最小值(ICC = 0.6),远低于临床应用(ICC = 0.8)或个体水平解释(ICC = 0.9)的推荐临界值。不过,也并不是所有的任务态fMRI测量方法都是一样的,也不可能对fMRI研究中收集的所有测量个体差异的方法产生一个单一的可靠性估计。然而,本研究的结果表明,任务类型、任务长度或重测间隔对任务态fMRI的可靠性不具有显著影响。 本文还评估了HCP和Dunedin 研究中11种常用的任务态fMRI的测量可靠性。与meta分析中包含的许多研究不同,这两项研究是最近在现代扫描仪上完成的,使用了前沿的采集参数、最新的伪迹去除方法和最先进的预处理管道。然而,平均的重测可靠性也很差(ICC=0.228)。在这些分析中,并未发现针对特定任务的目标ROI的可靠性会比非目标ROI更好(目标ROI平均ICC为0.270,非目标ROI为0.228),以及并未发现任何特定任务或目标ROI能够始终产生高的可靠性。有趣的是,这两项研究的可靠性估计比元分析的估计要小得多(元分析ICC = 0.397),可能是因为预注册的分析通常比未预注册的出版文章的分析产生更小的效应量。 4.1 fMRI研究中的两种方法本文的研究结果可以追溯到Lee Cronbach在1957年发表的一篇经典文章,他在文中描述了科学心理学的两个方法。根据Cronbach的说法,实验方法致力于通过实验控制和组平均来揭示人类普遍的特征和能力,而相关方法则致力于通过测量人与人之间的差异来解释个体之间的差异。这两种方法的一个基本区别是如何对待个体差异。对于实验研究来说,个体间的差异是一种误差,必须将其最小化,才能检测出最大的实验效应。对于相关研究而言,个体间的差异是分析的主要单位,必须仔细测量,以提取可靠的个体差异。 目前的任务态fMRI范式很大程度上来自于实验方法。设计任务态fMRI范式来揭示人类大脑对刺激的一般反应,同时最小化被试间的差异。能够在群体水平上诱发稳健的定向大脑活动的范式,随后被转化为评估个体差异的工具。因此,被试内的稳健性经常被不恰当地用来暗示被试间的可靠性,但是研究者们却忽略了这样一个事实,即不可靠的被试间测量也能在群体水平上产生可靠的被试内实验效应。 这一推理并不是任务态fMRI研究所独有的。在被试内部(即群体)产生强效应的行为测量方法在被试间具有较低的信度,例如,Stroop测试的平均重测可靠性(ICC=0.45)与本文的任务态fMRI元分析的平均信度大小(ICC=0.397)是如此的相似。不过,MRI测量,甚至BOLD信号本身,也并非都是不可靠的。在我们的分析中,结构MRI测量(见图5),以及从fMRI长时扫描中估计的内在功能连通性测量,都显示了较高的重测可靠性。因此,问题不在于工具本身,而在于所使用的策略(采用认知神经科学实验所开发的任务),这种策略对于可靠的测量人与人之间大脑激活的差异似乎不太适合。 4.2建议和未来的研究方向在接下来的部分,作者提出了几种方法来最大化实现现有数据集的价值,并进一步提高fMRI任务的可靠性。首先提出两项可以立即实施的建议,另外两项则是需要收集更多数据以及进行创新。 4.2.1 任务态fMRI的即时机会:从大脑热点到全脑特征。4.2.2建立一个报告任务态fMRI测量可靠性的规范4.2.3来自更多人的更多数据4.4.4优化测量的可靠性和有效性 |
|