本文提出了一种全局-局部迁移学习方法,通过注意力机制将来自局部图像块的细粒度信息与全局上下文信息融合,以估计大脑年龄。在8个包括8379个年龄范围为0-97岁的健康大脑核磁共振成像的公开数据集上评估了这一方法。使用6个数据集进行交叉验证,使用2个数据集评估泛化能力。与其他现有技术相比,本研究的全局-局部迁移学习方法将估计脑龄的平均绝对误差降低到2.70年,并将估计脑龄与实际脑龄的相关系数提高到0.9853。此外,还提供了对大脑年龄估计信息最多的局部图像块信息。 深度学习可以提供基于大脑磁共振成像(MRI)的快速大脑年龄估计。然而,大多数研究使用一个神经网络从整个输入图像中提取全局信息,却忽略了局部细节。在本文中,我们提出了一种全局-局部迁移学习,它由以下两部分组成:从整个输入图像中提取全局上下文信息的全局路径和从局部图像块(即patch)中提取局部细粒度细节的局部路径。受迁移学习的启发,通过注意力机制将来自局部图像块的细粒度信息与全局上下文信息融合,以估计大脑年龄。此外,本文方法还提供了对大脑年龄估计信息最多的局部图像块信息。源代码网址:https://github.com/shengfly/global-local-transformer.本文发表在IEEE TRANSACTIONS ON MEDICAL IMAGING杂志。 为了解决这个问题,我们提出了一种用于脑龄估计的双通道网络。一个通道从输入的脑部MRI中捕获全局上下文信息,另一个通道负责从局部图像块捕获细粒度信息。我们将局部细节和全局上下文信息与注意力机制融合在一起,灵感来自迁移学习中的自注意力机制。因此,我们将其命名为“全局-局部迁移学习”,如图1所示: 图1.“全局-局部迁移学习”脑龄预测框架(有N个相同的全局-局部迁移学习模型来迭代地融合全局和局部特征。) A.我们的方法利用全局上下文和局部细节 全局路径基于整个输入图像进行决策,深层特征包含输入图像的全局上下文信息。然而,很容易收敛到信息量最大的可以产生较小的训练损失的区域,而包含细微年龄信息的其他区域则会被忽略。局部路径从局部图像块中学习年龄信息,强制网络学习很小的局部区域内的详细年龄信息,但是由于局部图像块的感受野大小受有限,因此性能有限。文献中的许多研究表明,融合全局上下文和本地详细信息可以提高性能。我们提出的方法使用注意机制最优地融合从全局路径提取的全局上下文信息和从局部路径提取的局部详细信息。 B.我们的方法不需要空间特征对齐 融合来自两个不同路径的全局和局部特征的常见方法是在局部区域的相同空间位置对全局路径的特征进行分割,并将它们连接在一起。然而,有两个限制:(1)它要求全局和局部路径的特征在空间上对齐,这对于神经网络中几个最大池化层之后的任意输入图像大小来说是困难的;(2)从全局路径裁剪的深层特征仍然包含来自局部区域的信息,而没有全局上下文信息。 我们使用注意力机制来优化融合来自全局和局部的深层特征。注意力可以从全局路径中选择最重要的信息,而忽略与上下文特征无关的信息。将所有位置处的全局上下文信息的加权和与来自局部的深度特征的每个位置上的特征融合,其中通过对应的全局和局部深度特征之间的相似性来计算权重(通过softmax归一化,命名为注意力)。因此,我们的方法不需要任何空间特征对齐,并且可以在来自全局和局部的特征之间的相似性的指导下捕获长程全局上下文信息。 C.我们的方法具有可解释性 有不同的方法来解释大脑年龄估计的深度学习方法。Levakov等人应用基于梯度的方法计算可以表示每个体素对脑龄预测贡献的个体解释图。我们之前的工作计算了一个群体中隐藏神经元和实际年龄之间的相关性图,以找到神经网络中最具鉴别力的神经元。对于迁移学习而言,注意力流可用于评估图形块的相对相关性。这些间接解释方法旨在了解神经网络在从从大脑图像中学到的内容及其所在位置,但有一个限制是神经网络受显著信息支配。 另一方面,直接解释方法通过直接在局部图形块上训练神经网络并量化每个局部图形块的预测精度来解释神经网络,以突出输入图像中信息量最大的图形块。一种有代表性的方法是BagNet,它基于从图像中分割出来的小局部块对图像进行分类,而不考虑它们的空间顺序,从而可以很容易地分析每个局部块的预测证据。与BagNet类似,我们的方法可以根据局部图形块来估计脑龄。因此,每个受试者的图形块级证据可以被利用和可视化以进行解释。我们所提出的方法具有BagNet的优点。此外,神经网络在局部图形块上的性能高于BagNet,因为它还通过注意力从全局路径中学习相应的全局上下文信息。 2. 相关工作 A.脑龄估计 表1. 在健康的脑部MRI上使用卷积神经网络进行脑龄评估的机器学习研究综述(MAE:平均绝对误差) 最近,Cheng等人提出了一种3D两阶段年龄神经网络,用于从T1w MRI中估计大脑年龄,分为两个阶段:第一阶段估计粗略的大脑年龄,第二阶段用于细化结果。6586名年龄在17-98岁的受试者的MAE达到2.428。我们之前的工作使用了注意力融合(FiA-Net)3D网络来融合强度和RAVENS通道,用于大脑年龄估计,在年龄队列(0-97岁)中的MAE为3.00年。 我们的方法在两个关键方面有所不同:(1)我们提出了一个双通道网络,它可以利用全局上下文和局部详细信息来估计大脑年龄。(2)我们将所提出的方法应用于从3D大脑MRI柱中提取的2D切片,这在计算上是高效的,并且在年龄(0-97年)上实现了2.70年的MAE。 B.迁移学习 迁移学习最初用于自然语言处理(NLP),最近在视觉识别中流行。核心思想是在输入序列上应用自注意层,以捕捉局部图像块序列之间的关系。输入序列首先被转换为三个不同的组件,即“查询(query)”,“关键词(key)”和“值(value)”。随后,基于“query”和“key”获得注意力,并将其应用于“value”以输出缩放序列。迁移学习已被用于图像识别、对象检测、手部姿态估计、图像超分辨率等。 我们方法的不同之处在于,“query”、“key”和“value”来自不同的特征:我们从全局路径计算“key”、“value”,从局部路径计算“query”。通过“key”和“query”,可以获得全局和局部信息之间的注意力,并将其应用于“value”,以计算局部图像块的全局上下文信息。因此,我们的方法可以将全局上下文和局部详细信息与注意力机制进行最佳融合,称为“全局-局部注意力机制”。具有“全局-局部关注”的相应迁移学习被命名为“全局-局部迁移学习”。 3.方法 A.深度特征提取的主干 我们使用卷积神经网络(CNN)作为主干从输入图像中提取深层特征。主干基于VGGNet,有少量层,这是基于“浅层神经网络在大脑年龄估计方面比深层神经网络提供更好的结果”这一事实。如图2所示,主干包含八个块。每个块由内核大小为3×3、填充为1的卷积层、批量归一化层和ReLU激活层组成。在每两个块之后应用内核大小为2×2、步长为2的最大池化层,以逐渐减小空间维度。每个块中使用的信道号类似于VGGNet,为[64,128,256,512]。主干将输入图像转换为深层特征,表示输入图像的抽象和高级特征。 与自注意力机制类似,我们也使用多头注意,其中全局和局部特征在通道维度上被拆分为h=8个平行部分。全局-局部注意力机制被应用于每个部分,并且输出值被连接,并投影到具有与输入特征相同大小的一个特征中。多头注意力成为迁移学习的标准组成部分。 4.实验 在本节中,我们介绍了所提出的方法在一个大型健康队列中的实验结果。我们还将其与基线模型和最先进的神经网络架构进行了比较。 A.数据 在本文中,我们在健康队列中评估了所提出的方法:我们从8个公开数据集收集了健康大脑T1加权MRI数据(表2),共有8379个样本,年龄范围为0-97岁。其中,6个数据集用于交叉验证,CMI和CoRR数据集用于评估深度学习模型的通用性。 预处理步骤包括N4偏置校正、视场归一化和Multi-Atlas Skull Strip-ping (MASS)。通过FSL将颅骨剥离的T1w MRI数据配准到SRI图谱(体素大小为1×1×1 mm,由24个健康大脑的T1w构建)。通过去除黑色边界,将大脑的体素裁剪为130×170×120的尺寸。所有MRI扫描都经过手动检查以去除具有严重伪影或配准不良的失败MRI。 我们在水平面、冠状面和矢状面上提取3D大脑体素中心周围的2D切片,不同的2D切片可用于大脑年龄预测。要提取的2D切片的数量(如图5所示)是本算法的关键变量。此外,与3D神经网络相比,训练2D神经网络需要更少的参数。此外,在全局特征和局部特征之间的每个位置之间计算全局-局部注意力,需要3D神经网络的大量计算资源(计算时间和内存)。如表2所示,将来自BGSP、OASIS-3、NIH-PD、ABIDE-I、IXI和DLBS随机分为5个部分,并进行5折交叉验证进行评估;使用来自不同扫描仪的CMI和CoRR数据集来评估模型的通用性。 B.网络训练 C.脑龄估计的性能评估 我们使用了三个指标评估模型性能:平均绝对误差(MAE)、相关系数(r)和累积得分(CS)。MAE(公式2)是一种广泛用于脑龄估计的指标。相关系数(r)被计算为预测年龄和实际年龄之间的Pearson相关性。CS是在给定阈值α下所估计的年龄的准确性,由以下公式给出: 其中是年龄估计的绝对误差e不高于阈值α的样本数,CS分数越高意味着性能越好。 D.与不同基线模型的比较 我们将所提出的全局-局部迁移学习与以下六种不同的基线模型进行了比较: (1)ResNet18:我们训练具有18层的标准ResNet,可以直接在整个输入图像上估计大脑年龄。 (2)BagNet-ResNet18:受BagNet的启发,ResNet18应用于从输入图像分割的每个局部图像块。 (3)VGG:我们使用VGG主干作为对整个输入图像进行脑年龄估计。 (4)BagNet-VGG:在每个局部图像块上应用VGG骨干网络。这类似于BagNet-ResNet18模型,此处将ResNet18替换为VGG。 (5)全局-迁移学习:我们使用VGG从输入图像中所裁剪的局部图像块序列中提取特征向量,并将相应的特征序列输入到用于脑龄估计的标准迁移学习中。“查询”、“关键词”和“值”来自在整个输入图像上分割的局部图像块序列。 (6)局部-迁移学习:标准迁移学习应用于在每个局部图像块上提取的特征向量。“查询”、“关键词”和“值”来自从单个局部图像块中提取的深层特征。为了公平比较,所有模型都使用相同的训练配置进行训练。 E.与最先进的神经网络的比较 我们还将所提出的方法与其他以整个图像为输入的视觉识别神经网络进行了比较。比较的网络结构包括:(1)ResNet50和ResNet101:最流行的具有50层和101层的残差网络。(2)WRN-50和WRN-101:具有不同层的宽残差网络(WRN),可以减少残差网络的深度并增加残差网络的宽度。(3)DenseNet121和DenseNet201:具有不同层的密集连接卷积网络。(4)SqueezeNet和ShuffleNet v2:两个使用小内核或深度可分离卷积层进行视觉识别的高效网络。 F.与最先进的脑龄估计方法的比较 如上所述,大多数脑龄估计研究都使用了神经网络的常见结构(在前几节中进行了比较)。最近发表了三种专门用于大脑年龄估计的神经网络。因此,我们还将所提出的方法与它们进行了比较:SFCN、DeepBrainNet和FiA-Net。SFCN最初是基于3D图像设计的,名为SFCN 3D。我们将3D卷积核替换为2D卷积核,称为SFCN 2D,以比较2D和3D图像的性能。它包含七个卷积层、批处理层、激活层和最大池化层。DeepBrainNet基于Inception-Res-V2模型对2D切片进行处理。为了进行公平的比较,所有模型都采用了相同的训练配置。 G.单个图像块尺寸的性能 我们用固定的局部图像块尺寸来评估所提出方法的性能。尽管我们的方法可以在没有特征对齐的情况下分割任何位置的局部图像块,但为了提高计算效率,我们使用滑动窗口策略来裁剪图像块,步长设置为图像块尺寸的一半。脑龄的最终估计值是所有可能的局部图像块中所估计年龄的平均值。 H.多个图像块尺寸的解释 我们裁剪不同大小的局部图像块,并将它们输入脑龄估计模型的相同局部路径中。换句话说,所有大小不同的图像块在网络中共享相同的本地路径。尽管可以应用任意的图像块尺寸,但为了计算效率,我们将最小图像块设置为32,将最大图像块设置为102,步长为8。在训练过程中,从整个图像的不同位置随机采样30个具有不同大小的图像块,以训练所提出的神经网络。在测试过程中,我们对每个受试者随机抽取3000个小图像块,并在每个图像块上获得所预测的脑龄。所获得的预测脑龄的分布,用平均值m和标准差σ来描述(如图4所示)。标准差σ可以被认为是脑龄估计的不确定性,它测量不同大脑区域的预测年龄差异。由于脑龄可以在局部图像块上估计,因此可以找到MAE最低的图像块并将其可视化以进行解释。 首先,我们评估了所提出的方法在局部图像块使用不同尺寸时性能,实验结果如图5(a)所示。从图中可以看出,当图像块尺寸大于48时,结果之间没有显著差异。因此,我们在本节中将局部路径的图像块大小设置为64。其次,我们基于从中心开始的切片上估计的年龄接近实际年龄的事实,给出了从3D MRI扫描中分割出的2D图像切片数量不同时的脑龄预测结果(图5(b))。图5(b)显示,当切片数量从5到20时,性能没有显著差异。第三,我们还展示了系统中全局-局部迁移学习模块(如图1所示)数量不同时系统的性能(如图5(c)所示)。这表明,当全局-局部迁移学习块的数量约为N=6-10时,MAE较低。在下一节中,我们将切片数设置为5,将块数设置为N=6,以在性能、计算时间和内存之间进行评估。图5(d)显示了不同主干(ResNet18、VGG13和VGG8)下的性能。VGG13具有与VGG8相似的结构(如图2所示),但具有与VGG16相同的13个卷积层。使用具有8个卷积层的神经网络提供了最佳结果。图5(e)显示了所提出的全局-局部迁移学习的全局和局部路径的性能。局部路径的预测是来自所有局部图像块的平均预测年龄。局部路径利用全局路径的全局上下文信息捕获来自局部图像块的详细信息,比从整个输入图像中提取大脑年龄的全局路径产生更好的性能。因此,我们在以下章节中只报告了局部路径的性能,全局路径仅用于增强全局上下文信息以提高局部路径的性能。 B.与不同基线模型的比较 表3显示了不同模型在水平面、冠状面和矢状面三个平面提取的2D切片上的性能。我们还通过预测的平均年龄来融合从所提取的2D切片的预测结果: ,其中yi是从平面i∈{水平面,冠状面,矢状面}时所预测的脑龄。 图6. 不同模型在三个平面上0至5年误差水平α的累积得分(CS)及其融合。 可以得到几个观察结果:(1)对于基于BagNet的方法(BagNet-ResNet18和BagNet-VGG),它们的性能低于以整个图像为输入的网络(ResNet18和VGG)。这表明,仅基于局部图像块来估计大脑年龄,性能是有限的。使用自注意机制,带有VGG主干的局部-迁移学习可以提高性能,但结果仍低于ResNet18。一般来说,以局部图像块作为输入的神经网络性能低于以整个图像作为输入的网络。然而,我们提出的全局-局部迁移学习达到了最好的性能,这证明融合全局上下文和局部详细信息十分具有优势。(2)不同平面上的年龄信息略有不同。信息量最大的平面是水平面,它比冠状面和矢状面提供更好的结果。对于ResNet18、VGG、局部-迁移学习和全局-局部迁移学习,融合这三个平面可以提高性能。在下面的部分中,我们只报告了三个平面的融合性能,因为它可以提供比单个平面更好的结果。(3)在整个输入图像和局部图像块上,具有8个层的轻量级VGG网络比具有18个层的ResNet提供了更好的结果。这提示在脑龄估计方面,轻量级网络可以实现比ResNet更好的性能。(4)与三个平面上的所有其他模型和相应的融合模型相比,我们提出的全局-局部迁移学习模型在不同阈值α下给出了最低的MAE、最高的相关性r和CS。 为了进一步展示不同模型的详细估计性能,基于MAE的评估被分解为不同的年龄范围。表4显示了年龄组的表现,这些年龄组大致分为四组。对于所有模型,30-60岁受试者的估计年龄的MAE高于其他年龄组的受试者,这表明该年龄组的年龄估计比其他年龄组更具挑战性。表中的结果表明,与四个不同年龄组的所有其他六个基线模型相比,我们提出的方法总是提供最好的性能。 表4. 不同年龄段的平均绝对误差(MAE)表现 表5显示了不同数据集的性能,包括用于交叉验证的6个数据集和用于泛化能力检验的2个数据集。我们提出的方法在交叉验证中涉及的6个数据集以及CMI和CoRR数据集上提供了最低的MAE,并可推广到来自不同站点和扫描仪的不同数据集。 C.与最先进的神经网络和大脑年龄估计模型的比较 表6显示了与八个最先进的深度学习网络和最近发表的两个大脑年龄估计模型在MAE、相关性r和CS(α=5年)方面的比较。所有这些模型都经过了五折交叉验证,并报告了三个平面的融合结果,以便进行公平的比较。我们用2D和3D卷积神经网络训练SFCN,在相同的数据上命名为SFCN 2D和SFCN 3D。从表6中我们可以看出,(1)在算法比较中,高效网络(ShuffleNet、SqueezeNet和SFCN 2D)具有最大的MAE(>3.5年)、最低的相关性(r<0.98)和CS(α)<80%。(2)DenseNet比其他神经网络(包括ResNet、WRN和DeepBrainNet)得到更好的结果。(3)SFCN的3D网络提供了比其2D网络更好的结果。(4)我们提出的方法优于其他通用神经网络,以及专门为大脑年龄估计设计的三个网络(SFCN、DeepBrainNet和FiA-Net])。 表6. 基于五折交叉验证的脑龄估计方法与统计方法的比较 D.多图像块尺寸的解释 在本节中,我们提出了两种解释:受试者水平的解释:它突出了每个受试者水平最具鉴别性的图像块;组水平的解释显示了特定年龄范围内一组受试者最显著的脑区。对于受试者水平的解释,收集每个图像块尺寸中MAE最低的5个图像块,并构建热图,将信息最多的区域进行可视化。对于组水平解释,我们只在每个受试者上选择具有最低MAE的5个图像块,其大小为32和40,然后对年龄范围内受试者的所有选定图像块进行平均,以获得细粒度热图。热图显示了在大脑图像上可以获得最低MAE(最佳预测)的概率。 图8显示了每个受试者通过对具有最低MAE的不同尺寸的图像块进行平均计算得到的信息量最大脑区域。对于每个大脑MRI,MAE最低的大多数图像块覆盖相同的区域,这表明显著区域(如图所示)比其脑区域包含更多脑年龄信息。此外,不同年龄的受试者大脑显著的年龄区域略有不同。为了计算大脑显著年龄区域的总体趋势,我们对特定年龄范围内受试者的显著区域进行了平均计算,结果如图9所示。 随着时间的推移,大脑显著区域有变化的趋势。在儿童(0-5岁)中,最显著的大脑年龄区位于额叶。年龄范围为5-20岁为深灰色区。从20岁开始,在30-35岁时显著区域逐渐转移到顶叶,然后在35-40岁时移回,直到65-70岁。75岁后,有两个显著的区域包含了最多的年龄信息。 图10显示了标准偏差σ(不确定度测量)在整个寿命内的分布。大的σ意味着在不同的大脑区域估计大脑年龄的差异很大。研究表明,在20岁和65岁左右的年龄段差异最小,这表明在这些年龄段,整个大脑区域之间的差异最小。40岁左右的受试者差异最大。原因可能是这个年龄段的训练样本较少。 图11的顶部条形显示了所预测的脑龄误差与基于SRI图谱自动分割的脑区的颅内容积(ICV)归一化容积值之间的Pearson相关性。我们发现交叉验证数据集不存在显著相关性(n=5441,r<0.1)。图11的底部显示了每个大脑区域(ROI)的箱线图。预测大脑年龄的平均误差(AE)在不同的大脑区域略有不同,范围从0.29年(Parietal Lateral GM Right)到-0.86年(Occipital Inferior GM Right)。还可以可视化每个大脑区域在整个寿命中的平均误差,图11显示了三个例子。 补充 我们提出的方法可用于在带有病灶的脑部MRI数据(例如脑肿瘤的MRI图像)上进行脑龄预测。肿瘤MRI的生物年龄不可用,只能从放射科医生的主观评估中获得生物年龄,这是一个耗时且主观的过程。在本文中,我们训练机器学习模型用于实际年龄估计,而不是生物年龄估计。 我们从BraTS收集大脑MRI数据,并且只使用大脑年龄可用的受试者。最后,共有382名受试者,年龄在17.4至86.6岁之间。我们将四种模式:T1w、T1GD、T2w、T2-FLAIR连接到具有多个通道作为输入的图像上。 我们使用与在健康队列上进行的实验相同的配置:在BraTS数据集上应用5折交叉验证,本节报告了三个平面的融合结果。表7显示了本方法与不同的基线模型、最先进的神经网络和最近发表的两个脑龄预测模型的性能比较。我们提出的方法在17个模型中取得了最好的性能。主要原因是:(1)我们提出的方法在局部图像块上预测脑龄。因此,它可以捕获患有肿瘤的受试者的非肿瘤大脑区域的大脑年龄信息;(2)通过注意力机制学习全局上下文信息,通过计算健康区域和肿瘤区域之间的相似性,可以自动找到肿瘤区域,消除肿瘤造成的影响。 表7. 基于BRATS数据集的五折交叉验证的脑龄估计方法与统计方法的比较 |
|