【原】任务态fMRI测量的重测可靠性：新的实证证据和元分析

思影科技 2022-10-30 发布于重庆

展开全文

在神经科学中，识别疾病风险的脑生物标记物日益重要。识别有意义的生物标记物的能力受到测量可靠性的限制;不可靠的测量方法不适用于预测临床结果。利用任务态功能磁共振成像(task fMRI)测量大脑活动是开发生物标记物的一个主要手段；然而，对于任务态fMRI的可靠性还没有得到系统的评估。本文作者提出了一致的证据，证明任务态fMRI测量的可靠性较差。首先，对90个实验(N = 1008)的元分析显示总体可靠性较差——平均组内相关系数(ICC) = 0 .397。其次，在人类连接组项目(HCP，N = 45)和达尼丁研究(Dunedin study, N = 20)收集的11个常见fMRI任务中，感兴趣的先验脑区活动的重测可靠性很差(ICCs = 0.067 - 0.485)。总的来说，这些发现表明，目前普遍的任务态fMRI测量并不适合于寻求大脑生物标记物或个体差异的研究。作者回顾了这一现状产生的原因，并指出提高任务态fMRI可靠性的途径。本文发表在Psychological Science杂志。

1前言

自从1992年引进功能核磁共振成像(fMRI)，科学家们可以无创地观察人类大脑活动。在传统的fMRI中，可以通过测量血氧水平依赖(BOLD)信号来估计大脑区域的活动，该信号反应了与神经活动相关的血氧变化。在BOLD fMRI最常见的一种形式中，研究人员通过对比控制条件下的BOLD信号和感兴趣条件下的BOLD信号来得到与特定认知功能相关的活动。通过这种方式，任务态fMRI使神经科学家对人类行为的大脑机制—从基本的知觉到复杂的思维有独特的见解，并使临床医生和心理健康研究人员得以直接测量与疾病有关的器质性功能障碍。

最初，任务态fMRI主要用于研究人脑支持的一般功能。研究人员可以测量被试在任务条件和控制条件下的激活差异，再将个体间的差异进行平均则可以得到群体效应。因此，fMRI任务可以优化在对比特定实验条件时感兴趣区域（ROI）或回路中引起的稳健的激活。例如，当人们对比情绪面孔与几何形状时，可以观察到杏仁核活动的增加;对比人们赢钱和输钱时，可以观察到腹侧纹状体活动的增加。通过使用这种被试内方法所引起的稳健的大脑活动，研究人员可以用相同的fMRI任务来研究被试间的差异。其背后的逻辑很简单：如果一个大脑区域在执行任务时被激活，那么该区域个体激活程度的差异可能会导致个体行为的差异，以及任何相关的疾病风险。因此，如果人们在看到威胁刺激时激活杏仁核，那么人与人之间杏仁核激活程度的差异则标志着他们在威胁敏感性和相关临床现象方面的差异（比如焦虑和抑郁）。就这样，fMRI从研究大脑如何工作的工具转变为研究个体大脑任何不同的工具。

使用任务态fMRI来研究人与人之间的差异预示着它可能成为发现大脑疾病生物标记物的强大工具。广义上来说，生物标记物是一种生物学指标，通常用于风险分层、诊断、预后和评价治疗效果。然而，作为一种有用的生物标记物，这个指标首先必须是可靠的。可靠性是指一种测量在类似情况下给出一致结果的能力，它限制了任何测量的预测效用、效力和有效性（图1）。因此，可靠性对于临床应用和研究实践至关重要。可靠性低的测量方法不适合作为生物标记物，也不能预测临床健康结果。也就是说，如果临床医生要用一种测量方法来预测病人未来患病的可能性，那么病人就不能在一次评估中随机获得高分，而在下一次评估中随机获得低分。

为了具有临床相关性的个体差异研究的发展，必须建立可靠的大脑测量方法。对于任务态fMRI的可靠性，个别研究的变异性太高，通常包含小的重测样本和各种各样的分析方法。此外，对于相同任务的可靠性，这些研究者得出的结论可能是相互矛盾的。这使得任务态fMRI的总体可靠性，以及许多常用的fMRI任务的可靠性在很大程度上是未知的。需要对任务态fMRI的可靠性进行最新的、全面的回顾和元分析，并对最广泛使用的任务态fMRI测量的可靠性进行深入检查。本文作者通过使用两种证据揭示了常用的任务态fMRI测量的可靠性很差。首先是对任务态fMRI区域激活的重测可靠性进行了元分析。其次，在最近收集的两组数据中（HCP和Dunedin研究），分析了在几个常用的fMRI任务的先验ROI中大脑激活的重测可靠性。

图1. 任务态fMRI重测可靠性样本量的大小对检测大脑与行为相关性80%检验力的影响。曲线显示了与行为或临床表型相关的三个水平的可靠性。图像采用R中的pwr.r.test函数绘制。r的值根据附录中的衰减公式指定。ICC= intraclass correlation coefficient，组内相关系数。

2方法

2.1 任务态fMRI可靠性的元分析

作者按照PRISMA指南进行系统回顾和元分析，在谷歌学术上搜索了2019年4月1日或之前发表的包含任务态fMRI激活重测可靠性估计的英文同行评审文章。使用高级搜索查找包含所有“ICC”(即组内相关系数)、“fMRI”和“retest”以及至少一个术语“ROI”、“ROIs”、“region of interest”或“regions of interest”的文章。共检索得到1170篇文章。

2.1.1筛选研究和数据提取

在审查全文之前先筛选所有的标题和摘要。纳入了所有报告BOLD fMRI任务激活的重测可靠性估计的实证文章。文章中正文和补充材料里报告的所有ICCs都被纳入。如果ICCs仅用图形(如柱状图)来描述，作者将根据图形判断其值。仅在脑图上描绘的体素ICCs不包括在内。对于基于2个以上时间点计算的ICC，本文使用间隔的平均值作为间隔值(例如，对于基于3个时间点的ICC，使用时间点1和2之间的时间平均值和时间点2和3之间的时间平均值)。对于那些除了对相同数据的主要分析(例如使用不同的建模策略或排除某些个体)之外还报告了敏感性分析中的ICCs的文章，本文只纳入主要分析中的ICCs。而来自组合任务的ICCs,旨在评估纵向变化的研究或干预研究中的ICCs，以及在文中没有报告ICCs的测量是来自于同一MRI扫描或同一个任务的，或者报告的ICCs是基于其他个体间的激活测量（比如个体内的空间范围激活或多体素模式激活），这些ICCs都不会被纳入后续的分析。

另外，作者还提取了关于样本特征(出版年份、样本量、健康vs.临床)、研究设计(重测间隔、事件相关vs.组块、任务长度和任务类型)和ICC报告(阈值vs.未阈值)的数据。当研究计算多个ICCs，但只报告超过最小阈值的值时，就会发生阈值化。对于每一篇文章，每一个符合上述纳入要求的ICC都被记录下来。

2.1.2统计分析

纳入的大多数研究没有报告ICC的标准误差或置信区间(CI)。因此，为了在meta分析中包含尽可能多的估计值，对所有的ICC值使用Fisher r-to-Z转换来估计所有ICC的标准误差。

使用R的metafor包中的工具拟合随机效应多层元分析模型。在这个模型中，ICCs和标准误差在每个唯一的样本、任务中进行平均，重测间隔（或子研究）在每篇文章或研究中进行平均。对于本文报告的结果，为了确保每个子研究的元分析权重仅基于样本量而不是报告的ICCs数量，本文假设每个子研究中ICCs之间的相关性为1。敏感性分析显示，该假设对总体结果的影响非常小(见原文补充材料图S2)。在元分析模型中，将子研究嵌套在研究中，以解释同一研究中估计的ICCs的非独立性。对那些报告阈值化ICC值的子研究进行单独的元分析，因为只报告有统计意义的ICC值会夸大效应量。

为了探究调节变量的影响，本文对所有的1146个ICC拟合了一个单独的随机效应多层模型(因为许多子研究都报告了与一个或多个调节变量有关的ICC值，但又没有在同一个子研究中将这些不同的值进行平均)。调节变量包括任务长度、任务设计(block vs.事件相关)、任务类型(例如，情绪vs.执行控制vs.奖励)、ROI类型(例如，结构或功能)、ROI位置(皮层vs.皮层下)、样本类型(健康vs.临床)、重测间隔、每年被引用次数，以及ICCs是否按显著性设定阈值。所有调节变量同时作为随机效应输入模型。在多水平模型中，ICCs嵌套在子研究中，子研究又嵌套在研究中。这样做是为了解释在同一个子研究中估计的ICCs的非独立性，以及在同一研究中进行的子研究的非独立性。

2.2新数据集的分析

2.2.1人类连接组计划(HCP)

HCP是一个公开的数据集，包括1,206名参与者，具有大量的结构像和功能像。此外，45名被试参与了两次完整的扫描 (扫描的平均间隔约为140天)。所有被试都没有精神或神经疾病，年龄在25到35岁之间。

HCP中使用的七个任务旨在识别与大脑功能相关的节点。这些任务包括：

n-back工作记忆/执行功能任务(针对背外侧前额叶皮层-dlPFC);

赌博-奖励/激励处理任务(针对腹侧纹状体);

由脚、手和舌头的运动组成的运动定位任务(针对运动皮层);

听觉语言任务(针对前颞叶);

社会认知/心理理论任务(针对侧梭状回、颞上沟和其他社交网络区域)；

关系处理/维度变化检测任务(针对嘴外侧前额叶皮层-rlPFC);

面部匹配的情绪处理任务(针对杏仁核)。

2.2.2达尼丁多学科健康和发展研究

达尼丁研究（Dunedin Study）是对1972年4月至1973年3月在新西兰达尼丁出生的1037个完整出生队列的健康和行为的纵向调查(符合条件的新生儿占91%，52% 为男性)，随访至45岁。2016年8月至2019年4月期间收集了结构和功能神经成像数据，参与者年龄为45岁。此外，20名参与者完成了两次完整的扫描(扫描平均间隔为79天)。

本文收集了四个任务的功能磁共振成像，这些任务的目标是四个不同领域的神经中枢:一个面孔匹配情绪处理任务(针对杏仁核)，一个Stroop执行功能任务(针对dlPFC和背侧前扣带皮层)，一个货币激励延迟奖励任务(针对腹侧纹状体)，和一个面孔名称编码情景记忆任务(针对海马体)。

2.2.3定义ROI

使用两种常见方法提取大脑区域活动的个体估计。首先，从解剖定义的先验区域提取平均值。确定每个任务的主要ROI，并提取相应的双侧解剖mask内所有体素的平均BOLD信号变化。

接着，使用了基于组水平激活的功能定义区域。在每个任务下，以其解剖ROI 内的峰激活体素为中心绘制5mm球体作为功能ROI。这是一种常用的方法，用于捕捉每个被试的峰激活位置（尽管激活的具体位置在不同被试间存在差异）。

2.2.4可靠性分析

提取每个任务、每个ROI和每次扫描会话（session）的个体水平BOLD信号变化估计。采用两因素混合效应ICC对可靠性进行量化，其中扫描会话建模为固定效应，被试建模为随机效应，重测间隔作为不感兴趣的效应。这种混合效应模型称为ICC (3,1)，ICC(3,1)=（BMS-EMS）/(BMS+(k-1)*EMS)，其中BMS表示被试间均方，EMS表示误差均方，k是评分者或扫描会话的数量(在本文中为2)。ICC(3,1)追踪的是各阶段之间测量结果的一致性，而不是绝对一致性。由于随着时间的推移可能对刺激习惯化，ICC(3,1)通常用于任务态fMRI重测可靠性的研究。

为了更广泛地测试每个任务的可靠性，作者计算了11个任务的所有目标ROI的ICC。因为在HCP和Dunedin的研究中，有三个任务(情感、奖励和执行功能任务)非常相似，并且针对相同的脑区，所以在这两个研究中对这些任务使用了相同的ROI，因此总共对8个ROI进行了可靠性评估。为了进一步可视化可靠性的全局模式，我们还使用AFNI软件中的3dICC_REML.R函数计算了ICC(3,1)的体素映射。最后，为了提供一个评估任务态fMRI可靠性的基准，作者确定了结构像常用的三种重测可靠性：皮质厚度和360个分割或ROI各自的表面积，以及17个皮层下结构的灰质体积。

3结果

3.1任务态fMRI个体差异的可靠性:一项系统综述和元分析

本文纳入了56篇符合元分析标准的文章，从90个不同的子研究的1088个参与者中得出1146个ICC估计值，采用66种不同的任务态fMRI范式(Fig. 2)。这些论文共被引2686次，平均每篇被引48次，每年每篇被引5.7次。在筛选文献过程中，作者发现一些研究人员计算了许多不同的ICCs(跨越多个ROI、对比和任务)，但只报告了在统计上显著或者达到最小阈值的ICC，而这种做法会夸大可靠性估计。因此，作者还对无阈值化和阈值化的数据分别进行了分析。

图2. 系统文献综述及元分析流程图

图3. 元分析森林图显示了每项研究中报告的所有组内相关系数(ICCs)对每项任务态fMRI测量的重测可靠性估计。第一栏按第一作者的姓和出版年份标明每篇文章。这里列出的所有文章的参考资料都在网上的补充材料中提供。在被试类型栏中，h表示本研究中的样本由健康对照组组成，c表示临床样本。所有研究被分为两组。在第一组研究中，作者报告了所有计算过的ICCs，从而允许相对无偏倚的可靠性估计。在第二组研究中，作者选择了计算ICCs的一个子集(基于ICC的量级或另一个非独立统计数据)，然后只报告该子集中的ICCs。这种做法会导致可靠性估计的夸大，因此这些为这些研究分别进行了元分析，以强调这种偏差。误差条表示95%置信区间（CIs）。MID = 金钱奖励间隔，LH = 左手，RH = 右手。

图3显示了来自77个报告无阈值化的子研究的重测可靠性系数(ICCs)(平均值N = 19.6，中位数N = 17)。56%的数值可靠性较差(低于0.4)，另外24%的数值可靠性尚可(0.4-0.6)，只有20%的可靠性达到良好或极好的范围(0.75以上)。随机效应元分析显示，平均ICC为0.397(95% CI =[.330–.460], p < .001)，处于较差的范围。研究间存在异质性(p = 0.04, I² = 31.6)。

正如预期的那样，对于13个有超过最低阈值的子研究（平均值N =24.2，中位数N =18）进行元分析，结果显示，ICC的值更高，为0.705(95% CI = [0.628–0.768], p < .001,I ² = 17.9)。这个值是那些无阈值化研究ICCs估计值的1.78倍，可靠性良好，这表明进行阈值化会夸大任务态fMRI的可靠性。没有证据表明研究间存在异质性(p = 0.54, I ² = 17.9).。

所有亚研究的调节分析显示，基于阈值ICC的研究的可靠性显著更高，Q_M(1) = 6.531, p = 0.010， β = 0.140。此外，位于皮层的ROI的ICCs显著高于皮层下的，Q_M(1) = 114.476, p <0.001， β = 0.259。然而，没有证据表明元分析的估计受到任务类型、任务设计、任务长度、重测间隔、ROI类型、样本类型或每年被引用次数的调节。最后，使用Egger随机效应回归检验发表偏倚，结果未发现有发表偏倚(Z = 0.707, p = 0.480).

元分析的结果虽然具有启发性但解释起来并不简单。首先，可靠性的估计来自大量的任务和样本，因此单一的元分析可靠性估计可能会掩盖真正可靠的任务态fMRI范式。其次，这些研究使用了不同的扫描仪(有些已经过时)和不同的预处理和分析管道，为了解决这些限制，作者进一步分析了两个新的数据集(这两个数据集使用最先进的扫描仪和分析手段)来评估常用的认知和情感任务中的个体差异。

3.2 任务态fMRI中个体差异的可靠性:在两个新的数据集中分析

本文评估了11个常用fMRI任务的先验ROI激活的重测可靠性(见方法部分)。在HCP中，45名参与者使用定制的3T扫描仪(西门子，慕尼黑，德国)扫描了两次，平均间隔140天(SD = 67.1天)，使用了七个任务，目标是情感、奖励、执行功能、运动、语言、社会认知和关系处理。在Dunedin 研究中，20名参与者使用3T西门子Skyra扫描了两次，平均间隔79天(SD = 10.3天)，使用了四个以情绪、奖励、执行功能和情景记忆为目标的任务。该样本量与meta分析研究中使用的平均样本量相对应。在两项研究中，有三个任务是相似的，允许我们测试任务态fMRI可靠性的可重复性。对于两项研究中的其他8个任务，确定了每个任务的主要目标区域，总共有8个先验ROI(参见方法部分)。

3.2.1 组水平激活

为了确保这11个任务被正确地实现和处理，我们对每个任务中感兴趣的对比重新进行计算，分析结果表明，每一个任务在目标ROI上组水平的激活是稳健的（三个共同的任务见图4，其他任务见附录图S4）。

图４.HCP和Dunedin研究中使用的三种任务态fMRI测量的全脑激活和可靠性图。对于每个任务，主要的被试内对比(t分数)的全脑激活图以暖色显示(上)，被试间的可靠性(ICC)的全脑激活图以冷色显示(下)。对于每个任务，感兴趣的目标区域用天蓝色标出。激活图的阈值为p<0.05，并使用无阈值聚类增强对多次比较进行全脑校正。ICC映射图被阈值化，这样ICC小于0.4的体素就不会被着色。X、Y和Z的值在MNI坐标中给出。

3.2.2 目标区域激活的可靠性

作者用四个步骤研究了两个数据集中任务激活的可靠性。首先，测试了每个任务在目标ROI中激活的可靠性。其次，评估了每个任务在其他七个先验ROI中激活的可靠性。这样做是为了测试目标ROI的可靠性是否高于其他(非目标)大脑区域激活的可靠性，并确定任何具有持续高可靠性的任务或区域。第三，分别使用左脑和右脑的激活来重新评估可靠性，以测试对两脑的平均是否会削弱对可靠性的估计。第四，测试了可靠性是取决于结构上的ROI(使用解剖图谱)还是功能上的ROI(使用基于峰值活动位置的一组体素)。

3.2.3 HCP数据集中区域激活的可靠性。

首先，如图5中黑色圈出的估计值所示，HCP中解剖定义的目标ROI的激活在七个fMRI任务中具有较低的可靠性（平均 ICC = 0.251, 95% CI = [0.142–0.360])。只有语言处理任务的可靠性高于0.485。没有任何的可靠性达到良好范围(ICC>0.6)。第二，非目标ROI中任务激活的可靠性也较低(图5; 平均ICC = 0.239, 95% CI = [0.188–0.289])，但也并未低于目标ROI的可靠性(p=0.474)。第三，从左、右ROI分别计算的任务激活可靠性与从平均ROI估算的可靠性相似(目标ROI的左ICC平均值为0.207，非目标ROI为0.196，目标ROI的右ICC平均值为0.259，非目标ROI为0.236)。第四，功能定义的ROI任务激活的可靠性也很低(平均ICC = 0.381, 95% CI =[0.317-0 .446])，只有运动任务和社会任务的ICCs大于0.4 (ICCs分别为.550和.446)。

另外，为了考虑HCP中存在的家庭结构，在去掉测试样本中的每个兄弟姐妹/双胞胎对中的一个后，作者重新估计了可靠性。26个不相关个体的亚样本中双侧解剖ROI的可靠性与整体样本的可靠性非常相似（目标ROI的平均ICC=0.301，非目标ROI ICC =0.218）.

图5 分别为HCP（左）和Dunedin研究（右）11个常用的任务态fMRI和3种常用的结构MRI测量的区域激活的重测可靠性。对于每一项任务，在先验目标感兴趣区域(ROI; 黑色圈出)和从其他任务中选择的非目标ROI中估计组内相关系数ICC。非目标ROI为前颞叶(ATL)、背外侧前额叶皮层(dlPFC)、中央前回(PCG)、前外侧前额叶皮层(rlPFC)和腹侧纹状体(VS)。作为基准，三种常见的MRI结构测量方法皮质厚度(CT)、表面积(SA)和皮层下体积的ICCs被描绘为小提琴图，分别代表CT和SA的360个分割和灰质体积的17个皮层下结构的ICCs的分布。为了可视化将ICC为负值的设置为0。EF=执行功能

3.2.4 Dunedin研究中区域激活的可靠性

首先，如图5中黑色圈出的估计值所示，在Dunedin研究中，四个任务中每个解剖定义目标ROI的激活都具有较低的可靠性(平均ICC = .309, 95% CI =[0.145-0 .472])，没有ICCs达到良好范围(ICC >0.6)。其次，非目标ROI中激活的可靠性也很低(图5;平均ICC = 0.193, 95% CI =[0.100 -0.286])，但并不显著低于目标ROI的可靠性(p = 0.140)。第三，分别计算左、右半脑任务激活的可靠性，结果与平均ROI的可靠性相似(目标ROI的左ICC均值为0.243，非目标ROI为0.202;目标ROI的右ICC均值为0.358，非目标rROIoi为0.192)。第四，功能定义的ROI也并没有显著提高可靠性(平均ICC = 0.325, 95% CI =[0.197-0.453])。

3.2.5 结构测量的可靠性

作者还调查了三种常用的结构MRI测量的可靠性:皮层厚度、表面积和皮层下灰质体积，以便为评估任务fMRI的重测可靠性提供基准。与先前的研究证据一致，结构MRI表型具有极好的可靠性(即ICCs>0.9)，本文结果表明，目前样本中的全脑和区域结构MRI测量有非常高的重测可靠性(图5)。对于平均皮质厚度，在HCP和Dunedin研究数据集中，ICCs分别为0.953和0.939。在HCP中，分区（parcel-wise）皮层厚度的可靠性平均值为0.886（range=0.547-0.964）, ICC高于“一般”阈值占100%，98.6%高于“良好”阈值，94.2%高于“极好”阈值。在Dunedin研究中，parcel-wise皮层厚度的可靠性平均值为0.846（range=0.385-0.975），99.7%的ICCs高于“一般”阈值，96.4%高于“良好”阈值，84.7%高于“极好”阈值。对于表面积，HCP和Dunedin数据集的ICCs分别为0.999和0.996。在HCP中，parcel-wise表面积的平均ICCs为0.937（range=0.526-0.992），ICC的值100%高于“一般”阈值，98.9%高于“良好”阈值，96.9%高于“极好”阈值。在Dunedin研究中，表面积的平均ICCs为0.942（range=0.572-0.991），ICC高于“一般”阈值占100%，99.7%高于“良好”阈值，98.1%高于“极好”阈值。对于皮层下灰质体积，HCP的平均ICCs为0.903（range=0.791-0.984），所有的ICCs都高于“极好“阈值。在Dunedin研究中，ICCs的平均值为0.931（range=0.767-0.979）,也是所有的ICCs都高于“极好”阈值。

4 讨论

本文的研究证据表明，常用的任务态fMRI测量不具有发现生物标记物或大脑行为映射所必需的重测可靠性。对任务态fMRI可靠性的元分析显示，重测的平均可靠性系数为0.397，低于良好可靠性所需的最小值(ICC = 0.6)，远低于临床应用(ICC = 0.8)或个体水平解释（ICC = 0.9）的推荐临界值。不过，也并不是所有的任务态fMRI测量方法都是一样的，也不可能对fMRI研究中收集的所有测量个体差异的方法产生一个单一的可靠性估计。然而，本研究的结果表明，任务类型、任务长度或重测间隔对任务态fMRI的可靠性不具有显著影响。

本文还评估了HCP和Dunedin 研究中11种常用的任务态fMRI的测量可靠性。与meta分析中包含的许多研究不同，这两项研究是最近在现代扫描仪上完成的，使用了前沿的采集参数、最新的伪迹去除方法和最先进的预处理管道。然而，平均的重测可靠性也很差（ICC=0.228）。在这些分析中，并未发现针对特定任务的目标ROI的可靠性会比非目标ROI更好（目标ROI平均ICC为0.270，非目标ROI为0.228），以及并未发现任何特定任务或目标ROI能够始终产生高的可靠性。有趣的是，这两项研究的可靠性估计比元分析的估计要小得多(元分析ICC = 0.397)，可能是因为预注册的分析通常比未预注册的出版文章的分析产生更小的效应量。

4.1 fMRI研究中的两种方法

本文的研究结果可以追溯到Lee Cronbach在1957年发表的一篇经典文章，他在文中描述了科学心理学的两个方法。根据Cronbach的说法，实验方法致力于通过实验控制和组平均来揭示人类普遍的特征和能力，而相关方法则致力于通过测量人与人之间的差异来解释个体之间的差异。这两种方法的一个基本区别是如何对待个体差异。对于实验研究来说，个体间的差异是一种误差，必须将其最小化，才能检测出最大的实验效应。对于相关研究而言，个体间的差异是分析的主要单位，必须仔细测量，以提取可靠的个体差异。

目前的任务态fMRI范式很大程度上来自于实验方法。设计任务态fMRI范式来揭示人类大脑对刺激的一般反应，同时最小化被试间的差异。能够在群体水平上诱发稳健的定向大脑活动的范式，随后被转化为评估个体差异的工具。因此，被试内的稳健性经常被不恰当地用来暗示被试间的可靠性，但是研究者们却忽略了这样一个事实，即不可靠的被试间测量也能在群体水平上产生可靠的被试内实验效应。

这一推理并不是任务态fMRI研究所独有的。在被试内部(即群体)产生强效应的行为测量方法在被试间具有较低的信度，例如，Stroop测试的平均重测可靠性（ICC=0.45）与本文的任务态fMRI元分析的平均信度大小（ICC=0.397）是如此的相似。不过，MRI测量，甚至BOLD信号本身，也并非都是不可靠的。在我们的分析中，结构MRI测量(见图5)，以及从fMRI长时扫描中估计的内在功能连通性测量，都显示了较高的重测可靠性。因此，问题不在于工具本身，而在于所使用的策略（采用认知神经科学实验所开发的任务），这种策略对于可靠的测量人与人之间大脑激活的差异似乎不太适合。

4.2建议和未来的研究方向

在接下来的部分，作者提出了几种方法来最大化实现现有数据集的价值，并进一步提高fMRI任务的可靠性。首先提出两项可以立即实施的建议，另外两项则是需要收集更多数据以及进行创新。

4.2.1 任务态fMRI的即时机会:从大脑热点到全脑特征。

目前，大多数任务态fMRI测量是基于从ROI中提取的条件之间的对比(即变化分数)。然而，条件间变化分数的可靠性不仅总是低于其组合分数的可靠性，还会破坏任务态fMRI测量的可靠性。然而，从ROI中提取的基于对比的激活值只是从任务态fMRI数据中获得个体差异的其中一种测量方法。例如，通过利用任务态fMRI数据中的高维信息，一些多变量方法可以增加测量的可靠性和预测效用。比如，可以通过以下方法来提高任务态fMRI的可靠性:使用潜变量模型，使用多体素模式分析测量表征空间中的个体差异，训练交叉验证的机器学习模型(通过预测独立样本中的个体差异来建立可靠性)。此外，任务态fMRI可以与静息态fMRI相结合，产生可靠的内在连通性测量。

4.2.2建立一个报告任务态fMRI测量可靠性的规范

心理科学的可重复性说明了快速变化的规范如何影响研究的实践和标准。近年来，对假设和分析方法的预注册研究已经越来越受欢迎。作者认为在发现生物标记物和大脑行为映射的背景下，类似的规范将有利于发展任务态fMRI。尤其是研究人员在研究个体差异时应该报告所有任务态fMRI测量的可靠性。然而，鉴于相关性在大约150个观测值时开始趋于稳定，研究人员如果要有足够的信心获得对任何特定任务的可靠性，则需要收集更大的重测数据集。本文提供的证据表明，任务态fMRI文献报告的可靠性通常较低，由于这些报告里的重测样本规模相对较小，因此对其可靠性的结论需谨慎对待。为了追求精确的可靠性估计，研究人员必须收集更大的重测样本，探索影响重测可靠性的调节变量（比如，重测间隔)，并避免可能由于循环的统计分析造成对可靠性估计的夸大。

研究人员还可以提供被试间的可靠性，即内部一致性。虽然重测可靠性提供了一种随时间变化的稳定性估计，适合对性状和生物标记物的研究，但这种估计较为保守，需要额外的数据收集，并且可能会受到习惯化效应以及快速波动的影响。在某些情况下，内部一致性更实用，因为它更经济且不需要额外的数据收集，可以用于任何情况下的任务态fMRI测量。内部一致性特别适合那些预期会迅速变化的短暂的心理状态（比如当下的情绪和思想）。然而，仅内部一致性不足以作为预后的生物标志物。建立一种明确报告测量可靠性的规范将增加任务态fMRI测量结果的可重复性，并加速生物标志物的发现。

4.2.3来自更多人的更多数据

使用任务态fMRI来可靠的检测个体差异的能力，在一定程度上取决于两个互补的因素:(a)每个研究的人数更多，(b)每个人的数据更多。有人认为神经科学的检验效力通常不够，尤其是小样本量会破坏fMRI的研究。本文的研究结果表明，这种检验效力的不足可能会被任务态fMRI测量的低可靠性进一步复杂化。fMRI研究样本量的中位数是28.5。然而，如图1所示，ICCs为0.397(元分析平均信度)的任务态fMRI测量的样本量需要214个以上，大脑和行为之间0.3的相关性的检验效力才能达到80%。如果r为0.1（在心理学研究中0.1是一个小的效应），要达到足够的检验效力其总样本量需要超过2000个。作者认为增加任务态fMRI研究的样本量，并考虑到检验效力的分析，对于使用任务态fMRI提高个体差异研究的可重复性具有重要意义。

如果没有更高的可靠性，任务态fMRI测量将无法提供在个体层面上具有意义的生物标记物。提高任务态fMRI可靠性的另一个有效方法是每个人收集更多的数据。这种方法已被证明可以提高功能连接的可靠性，初步的研究表明，这可能也适用于任务态fMRI。从实际出发，收集额外的fMRI数据对被试是一种负担，特别是在儿童和临床人群中，更长的扫描时间通常有更多的数据伪影，特别是运动的增加。自然的fMRI技术是解决这一挑战的一个潜在方案。在自然的fMRI中，参与者在扫描时观看刺激丰富的电影，而不是完成传统的认知神经科学任务。初步研究表明，观看电影对被试来说是非常有吸引力的，研究者不仅能收集到更多的数据，而且被试的运动也会更少。作者认为，通过强调生态有效性而不是实验控制，甚至有可能更好地发现大脑活动的个体差异。在寻求与疾病风险有关的大脑生物标记物的研究领域里开展大规模的神经成像研究，保证对fMRI心理测量可靠性的信心是至关重要的，而这将需要资助者倡导和支持研究人员从更多人那里收集更多的数据。

4.4.4优化测量的可靠性和有效性

与其继续采用那些由强调被试内效应的实验发展而来的fMRI任务，作者认为我们需要从头开发新的任务(和自然刺激)，以优化它们在个体差异研究中的效用(即被试间效应)。心理测量学为开发可靠的个体差异测量提供了许多工具和方法，这些方法在任务态fMRI开发中尚未得到充分利用。可以根据这些工具和方法最大限度区分人群或产生可靠的被试间差异的能力来选择fMRI任务中的刺激。正如前文所提到的，可以采用项目分析、潜变量建模和内部一致性测量等心理测量工具来优化可靠的任务态fMRI测量。

5结论

任务态fMRI研究的一个主要目标是识别异常的大脑活动，这有助于大脑疾病的诊断、预后和治疗。本文发现，若要实现这一目标，常用的任务态fMRI测量方法缺乏最低的可靠性标准。为了测量可靠的个体间变异，需要设计和优化任务态fMRI范式。由于任务态fMRI研究面临着可重复性挑战，因此也必须强调测量可靠性的重要性。在个性化医疗和神经科学的精确化时代，需要资金进行新颖的fMRI研究，并且这种fMRI研究需要具备产生临床可操作知识所需的心理测量的严谨性。